Google DeepMindのAlphaProof 数学の大躍進 - AIが自ら数学的証明を学ぶ
AIの開発においては数週間ほど停滞気味でしたが、それが急速に変わりつつあります。複数のモデルがリリースされ、今日はGoogle DeepMindからの発表があります。彼らは国際数学オリンピックの問題を銀メダリストレベルで解決した最初のAIを発表したと言っています。しかし、それは控えめな表現で、このAIシステムは金メダル獲得まであと1点というところでした。
彼らは続けて、このシステムは形式的推論のための新しい画期的なモデルであるAlpha proofと、以前のシステムを改良したAlpha geometry 2を組み合わせたものだと説明しています。
また、OpenAIがSearchGPTという検索エンジンを発表し、アルファベット社の株価が下落しました。AIを搭載したオンライン検索分野に複数の競合他社が参入したことになります。もちろん、ウェブ上で情報を検索するのに優れたPerplexityもありますが、今回OpenAIも参入しました。ただし、ウェイトリストに登録する必要があり、早期参加者に順次提供されていく形です。興味がある方は、以下にリンクを貼っておきますので、ウェイトリストに登録してチェックしてみてください。
しかし、本題に戻りましょう。ジミー・アップルズのツイートを見てみましょう。日付は2024年7月7日です。彼はこう言っています。「業界の人々は皆、今年後半に某研究所(SL laabs)から数学のベンチマークが打ち破られることについて黙っているようだ」。興味深い表現ですね。多くの人々は、これがOpenAIのストロベリープロジェクトのことだと思っていたようです。そのプロジェクトの詳細が数週間後にリークされたばかりでしたが、今となってはGoogle DeepMindのことを指していたのかもしれません。
GoogleとDeepMindは、アルファベット傘下でほぼ別々の組織です。両者を統合しようとする試みは多くありましたが、私の知る限り、その面での進展はありません。おそらくそれが、彼らのモデルをGemini(双子座)と呼んでいる理由かもしれません。
数学的問題を解決することは、常に偉大なAIの挑戦と見なされてきました。この発表のブログ記事の冒頭でも述べられているように、高度な数学的推論能力を持つ人工知能(AGI)は、科学と発見の新しい領域を切り開く可能性があります。Google DeepMindがAlphaFold 2のようなものを生み出し、タンパク質の3D構造の理解を助け、特定の病気の治療法をより深く理解し、副作用のない効果的な薬をカスタムデザインする可能性を開いたのを見てきました。まだ非常に初期段階ですが、非常に有望な分野です。
しかし、数学の breakthrough(飛躍的進歩)は全く異なります。数学は、この宇宙の構造そのものの基礎にあります。つい最近まで、AIモデルは数学的推論の分野で飛躍的進歩を生み出すことはできないと言われていました。
国際数学オリンピード(IMO)について話す必要があります。世界中から最も優秀な若者が集まり、基本的に数学をする、このユニークな大会は。この大会は、世界で最も優秀な若い頭脳を集め、何年にもわたる数学的努力と、何百回もの問題解決の試みの集大成を表しています。チームは2日間連続で、それぞれ3問ずつの長い数学の試験を受けます。試験用紙は数日後に採点され、各解答や試みにはスコアが与えられます。なお、ここで彼らが言及している試験時間は約4.5時間であることに注目してください。その4時間半という数字を覚えておいてください。
Google DeepMindは、今年、IMOの主催者が提供した競技問題に彼らの統合AIシステムを適用したと述べています。彼らの解答は、IMOの得点付与規則に従って採点されました。彼らは基本的に、これが実際に非常に正当であり、トリックはなく、全て公式で本物であることを説明しています。
この人工知能の論文の採点者の一人、IMO金メダリストでフィールズ賞受賞者のティモシー・ガワーズ教授はこう述べています。「このプログラムがこのような自明でない構築を思いつくことができるのは非常に印象的で、私が最先端だと思っていたものをはるかに超えています」。この「自明でない」という言葉に注目してください。これは非常に興味深いことです。なぜなら、これは繰り返しのパターンだからです。
私たちは、AlphaGoが世界チャンピオンのイ・セドルを囲碁で見事に打ち負かしたことについて話しました。しかし、そこには特に注目を集めた一手がありました。今や悪名高い「37手目」として知られています。AlphaGoがその手を打ったとき、人々は笑いました。審判や、囲碁のプレイ方法を知っている人々は、それを笑い飛ばしました。「AIはおかしいな。それはいい手ではない」と。しかし、その手は決定的でした。後に「brilliant(素晴らしい)」と呼ばれ、最終的にAIモデルが勝利するきっかけとなった非常に強力な一手でした。しかし、それは異質なものでした。人間のプレイヤーが通常打つ手とは大きく異なっていました。
同じようなことを、NVIDIAのリサーチでも見てきました。彼らはGPT-4を使ってロボットのトレーニングの報酬関数を書き、シミュレーションで特に指でペンを回す方法を教えました。私たちはすでにそれについて触れましたので、あまり深く掘り下げませんが、基本的にある時点でAIは人間よりも難しいタスクを解決するのが上手くなります。しかし興味深いことに、彼らは「タスクが難しくなればなるほど、ユーレカ報酬の相関が低くなる」と述べています。言い換えれば、物事が難しくなり、人間が躓き、タスクの遂行が悪くなるにつれて、AIはより良くなり、その解決策は斬新で、新しく、革新的で、異質なものになります。それらは人間の脳が思いつく解決策ではありません。解決策はより良く、非常に異なっています。
そして今、まさにそのパターンが再びここに現れています。このプログラムは自明でない構築を思いつきます。後でそれに戻りますが、ここで注目してほしいのは、彼らが公式の競技では学生が4.5時間ずつ2セッションで回答を提出すると述べていることです。私たちのシステムは1つの問題を数分で解き、他の問題を解くのに最大3日かかりました。しかし、これらの両方の点が非常に興味深いです。なぜなら、確かに何かを素早く解決することは印象的ですが、システムが長い時間をかけてゆっくりと解決策を見つけ出す、ゆっくりと何かを理解することができるという事実も非常に興味深いと思います。特定の問題は素早く解決できないかもしれません。
Alpha proofは2つの代数問題と1つの数論の問題を、答えを決定し、それが正しいことを証明することで解決しました。テストの2番目の部分は、あなたの解答の証明を生成すること、証明を書くことでした。
彼らは続けて、これには今年のIMOで参加者のうちわずか5人しか解けなかった大会で最も難しい問題が含まれていたと述べています。
ここ数年のAIに関する対話を追っていると、一つの明らかなことがあります。それは、ゴールポストの移動です。AIモデルが新しいことを学ぶたびに、批評家たちは「そうだけど、これはできない」と次のゴールポストを示します。高校レベルで書けるようになると「大学レベルでは書けない」と。大学レベルで書けるようになると「教授レベル、PhD(博士)レベルでは書けない」と。そのゴールポストは毎回どんどん先に移動していきます。
興味深いことに、ここでは私たちがそのゴールポストを移動させる能力の限界に近づいているように思います。公式の競技には609人の参加者がいたことに注目してください。繰り返しますが、これらは世界中からこの分野で最も優秀で優れた人々です。そのうち58人が金メダルを獲得しました。金メダルを受賞するためのしきい値は、最高42ポイントのうち29ポイントから始まります。ここでそれを表現しているのが見えますね。獲得ポイント数に応じて異なるメダルが与えられます。29ポイント以上で名誉ある金メダルを獲得します。
AIは28ポイントを記録し、金メダル獲得まであと1ポイントでした。今後数年間で少しでも改善されれば、実際に金メダルを獲得すると想定できます。そうなった場合、次にゴールポストをどこに移動させることができるでしょうか。私は疑問に思います。
いずれにせよ、それがどのようにして起こったのかについて少し掘り下げてみましょう。おそらくそちらの方がずっと興味深いでしょうから、正確な数字やポイントについてはあまり深入りしません。
2つの部分があることを覚えておいてください。一つはAlpha proofで、これは新しいもので、おそらくここで起こったことの多くに関係しています。彼らはこれを推論への形式的アプローチと呼んでいます。
この最初の文は少し驚くべきものです。Alpha proofは自分自身を訓練するシステムです。形式言語Leanで数学的な文を証明するように自分自身を訓練します。Leanとは何でしょうか。基本的に、正確で保守しやすいコードを書くのを容易にする関数型プログラミング言語で、この言語を対話型定理証明器としても使用できます。
私はわかりませんが、一般的に複雑に見える数学の方程式を理解するのは、ちょっと難しいと感じます。きっとそうですよね。でも、それらの方程式をある種のコードで表現すると、つまりそういった表記法で表すと、読むのがずっと簡単になることがよくあります。あなたにとってもそうかどうか教えてください。
左の画像の数学的な式と、右の画像のコードを比べてみてください。深く考えずに、どちらかを選んで作業するとしたら、私はコードの方を選びます。
私がそのことを持ち出した理由は、いくつか興味深い点があるからです。まず、IMOの問題は、私たちのシステムが理解できるように、手動で形式的な数学言語に翻訳されました。これが一つ目です。
大規模言語モデルは、数学を行うのが悪名高いほど下手です。ChatGPTやGemini、Claudeにさまざまな数学の問題を尋ねても、非常に単純なものでさえ、見事に失敗することがあります。
IMOのウェブサイトで2024年の問題をダウンロードしようとしていますが、このウェブサイトの遅さを見ると、私だけではないようです。Google DeepMindの発表から数日後、このウェブサイトが前例のないトラフィックを受けているのではないかと思います。
数分かかりましたが、最終的に文章問題をダウンロードすることができました。ここに例題1があります。これらが実際にGoogle DeepMindのモデルが取り組んだ問題です。6問あり、各問題は最大7点で、合計42点満点です。
これを聞いているだけで見ることができない方のために説明すると、主に自然言語で書かれた問題、つまり英語で書かれた問題に、数行の数学関数が挿入され、さまざまな数学記号がところどころに散りばめられている、といった感じです。
これが、彼らが言うように「手動で翻訳された」、つまり人間がそれを取り、私たちのシステムが理解できるように形式的な数学言語に翻訳したのです。
興味深いことに、彼らは大規模言語モデルを使ってこれを行うことができるようです。ここで彼らが言っているのは、「Leanのような数学プログラミング言語は、回答を形式的に検証することを可能にしますが、その使用は利用可能な人間が書いたデータの不足によって制限されてきました」ということです。そして電球のマークがついています。
私たちはGeminiモデルを微調整して、自然言語の問題をAlpha proofの訓練用の一連の形式的な問題に翻訳しました。つまり、モデルの訓練データを生成するために、Geminiの微調整バージョンを使用して、数学的表記を含む文章問題を、コードのように見える、このLean表記法に変換したようです。
私がそれを指摘した理由は、これが次世代のAIモデルがますますAIモデルによって訓練されるというテーマに合致するからです。人間がバージョン1.0、そしておそらく2.0を作成しましたが、ある時点で、AIモデル自体が将来のAIモデルの世代を改善し、生成する上でより大きな役割を果たすようになります。
大規模言語モデルであるGeminiがデータを生成し、Alpha proofは証明を考え出すために自己訓練するシステムで、以前にチェス、将棋、囲碁のゲームをマスターする方法を自己学習したAlpha Zeroの強化学習アルゴリズムと事前訓練された言語モデルを組み合わせています。
この大きな特徴は、自己対戦の考え方です。モデルは自分自身に教えます。例えば、AIモデルが人間のゲームだけでチェスの訓練をする場合、私たちは人間が行った全てのゲームのうち、アクセス可能なものを全てモデルに与えます。それによってモデルは上手くなり、非常に優秀になります。しかし、単に何十億、何十億回もの対戦を自分自身と行い、独自の戦略や解決策を考え出させると、超人的に優秀になり、革新的で非常にダイナミックで、従来にない新しいプレイスタイル、私たちを驚かせるような異質で斬新な手を生み出します。
Alpha proofの訓練方法は、大会に向けた数週間にわたり、難易度と数学的トピックの範囲が広い何百万もの問題を証明または反証するプロセスを経ました。この投稿は数週間前のものです。
訓練ループは大会中にも適用され、大会問題の自己生成バリエーションの証明を、解決策が見つかるまで強化しました。そのテーマに沿って、合成データを生成しました。問題を与えて、それに似た100の問題を作成するよう指示すると、それを行い、それが継続的な訓練のためのデータとなります。
彼らはそれを視覚的にこのように表現しています。約100万の非形式的な数学問題が、形式化ネットワークによって形式的な数学言語に翻訳されます。私の理解が正しければ、これがGeminiの微調整モデルで、問題を形式化して形式的な問題にします。約1億の形式的な問題が適切な表記法で存在するようです。
このプロセスがAlpha Zeroです。これらの問題を取り、それらの問題の証明や反証を探索し、Alpha Zeroアルゴリズムを通じて、より難しい問題を解決するように徐々に自己訓練します。
このIMOに勝利した全システムのもう一つの部分は、Alpha geometry 2でした。彼らはそれをより競争力のあるAlpha geometry 2と呼んでいます。これは元のバージョンを大幅に改良したもので、言語モデルはGeminiに基づいており、前身の10倍以上の合成データで一から訓練されたニューロシンボリックハイブリッドシステムです。
この大規模な合成データの使用の増加という考え方は、OpenAIのLlama 3.1の大規模リリースでも見られるのと同じです。実際、マーク・ザッカーバーグはLlama 3.1を「教師モデル」と呼んでいます。合成データを生成し、その出力を使って、非常に効果的で、はるかに小さく、はるかに高速で、使用コストが低い独自の特殊モデルを訓練することができます。オープンソースであることで、それが可能になります。
彼らは続けて、Alpha geometry 2は前身よりも2桁速い象徴的エンジンを採用していると述べています。今年の大会前、Alpha geometry 2は過去25年間の全IMO幾何学問題の83%を解決できました。これは前身の53%の達成率と比較されます。
彼らは、この問題4は形式化を受け取ってから19秒以内に解決されたと述べています。つまり、文章問題をLeanに翻訳できてから19秒で解いたということです。これは問題番号4だったと思います。基本的に、三角形と円から始まる図形の非常に長い説明があり、特定の角度とそれらが何に等しいかについての証明を求めています。19秒後、ここに解答があります。
彼らは簡単に、必ずしも全てを手動で翻訳する必要はないと述べています。人間が文章問題を形式言語やLean表記法に翻訳する必要はありません。Geminiの微調整バージョンを基にしたモデルがそれを行うことができると述べています。彼らはIMOの問題でそれを試したと言っており、それは大きな可能性を示したそうです。つまり、うまく機能するようですが、100%ではないということです。人間は100%正確に翻訳しますが、このモデルはそれより低いかもしれません。そのため、実際の競技中にはリスクを冒したくなかったのでしょう。しかし、いつかこの障壁も破られるかもしれません。
彼らはAlpha proofについてのより技術的な詳細をまもなくリリースする予定だそうです。
さて、皆さんはこれについてどう思いますか?これは興奮することでしょうか、それとも怖いことでしょうか?AIシステムが、人間の中でも専門家、世界最高レベルの人々だけが行えるようなタスクでさえ、どんどん上手くなっているように見えます。そして、ゆっくりとではありますが、自身を改善するタスクでさえも上手くなっているようです。
私たちはますます多くの合成データを目にし、このAlpha Zeroのような、AIに自己対戦をさせて自己改善させるアプローチを見ています。AIが自身の改良を生み出すことにますます依存するようになっています。まだ非常に初期段階ですが、そのプロセスは加速しているように見えます。
いずれにせよ、これは非常に興奮することです。皆さんはこれについてどう思いますか?Deep Mindチームが行っていることは絶対に信じられないほどです。デミス・ハサビスと彼のチームの仕事は、非常に多くの分野で画期的なものでした。彼らが次に何を思いつくのか楽しみでなりません。彼らはすぐに止まるつもりはないようですから。
以上、私の名前はウェス・ロスです。ご視聴ありがとうございました。