研究者たちが驚愕 - AIが超知能へと自己進化（01を凌駕）

2025年1月11日 19:08

9,893 文字

研究者たちが、自己改善が可能なLLMについて述べたMicrosoftの研究論文を発表しましたが、これは信じられないほど素晴らしい内容です。SFのようなナンセンスに聞こえるかもしれませんが、私の言葉を信じてください。「RAR math - 小規模LLMが自己進化による深い思考で数学的推論をマスター」という研究論文を見てみましょう。モデルが自身の思考を使って、より賢くなるということ自体が非常に驚くべきことです。
論文では「rstar mathを使って、小規模言語モデル(SLM)がOpenAI 01と同等かそれ以上の数学的推論能力を持つことが実証できた」と述べられています。そして驚くべきことに、これは上位モデルからの蒸留なしで達成されたのです。
モデル蒸留について知らない方のために説明すると、より大きな教師モデルから小さなモデルへ知識を転送するプロセスです。基本的に大きなモデルが教師モデルと呼ばれ、その知識が小さなモデルに蒸留されます。学習モデルは教師モデルと同様のパフォーマンスを発揮できるように微調整されます。
01プレビューと実際の01を例に取ると、実際の01があり、01プレビューは教師モデルの能力を少し抑えた同様の微調整バージョンでした。この論文が驚くべき点は、そのような蒸留なしで大規模言語モデルを上回れるということです。
彼らは「rstar mathはモンテカルロツリー探索を通じて深い思考を実現する」と述べています。これはAIが可能性の範囲を探索する手法の一つです。さらに驚くべきことに、初期のベンチマークを見ると、数学ベンチマークでQwen 2.5 math 7B（7B パラメータのLLM）を58.8%から90%に、53 mini 8Bを41.4%から86.4%に改善し、米国数学オリンピアドで01プレビューを4.5%と0.9%上回っています。
これが重要な理由は、小規模言語モデルがベンチマークで高得点を獲得するために単にすべてのトレーニングデータで学習しているのではなく、このモデルは自己改善によってこのレベルに到達したということです。
さらに興味深いのは、rstar mathシステムの概要図で、特にモンテカルロツリー探索に焦点を当てた自己進化フレームワークです。このシステム全体が、より高度な知能へと自己を引き上げることを可能にする思考方法を示しています。
左側にはモンテカルロ探索による思考があり、システムが複数の経路を探索します。人が結果の結果について考えたり、決定木のように考えたりするようなものです。小規模言語モデルは解決策の推論ステップを生成するポリシーとして機能し、各ステップが正しいことを確認するプロセス選好モデル(PPM)があります。
ここに見える各ノードは問題解決のステップを表しており、0.7や0.5などの値が付けられています。不正解のステップには低い値が、正解のステップには高い値が与えられます。システムは最終解への貢献度に基づいて各ステップにQ値を割り当て、正解に導くステップには高いQ値が、誤答に導くステップには低いQ値が与えられます。
高品質なステップ（緑で示されたもの）のみが最終解の軌跡を構築するために保持され、AIが最良の推論パスで学習できるようにフィルタリングされます。
さらに興味深いのは、モンテカルロツリー探索は優れていますが、言語モデルが自己改善できるようにするには、それに加えて何かが必要だということです。ここで、システムが自己改善し、ポリシー（小規模言語モデル）と報酬モデル（PPM）の両方を強化する4段階のプロセスが登場します。
注目すべき4つのステップがあります。まず、ターミナルガイド付きモンテカルロ探索から始まります。次にラウンド2で、前のステップの結果をより効果的にスコア化するPPM R2が導入され、このラウンドで生成されたデータによってさらにモデルが改善されます。モデルはR1からR2にアップグレードされます。
ラウンド3では、ポリシーが報酬モデルを活用して探索プロセス中にQ値を直接予測し、より質の高い解決策とトレーニングデータを生成します。これによって次のイテレーションのモデル（SLM 3）が学習され、バージョン3のモデルが得られます。
ラウンド4で最終モデルが登場し、さらに強力なポリシーと報酬モデルの継続により、最先端のパフォーマンスを達成します。モデルは最初はそれほど知識がない状態から、このプロセスを通じて反復的に自己改善し、最先端レベルにまで到達するのです。合成データを生成しながら、このプロセスでそれを実現できるというのは驚くべきことです。
ベンチマークの結果を見ると、自己進化による深い思考を通じて、モデルが数学的推論能力を継続的に向上させていることがわかります。ラウンド2の時点でGPT 4oを上回っているのが確認できます。ベースモデルは数学で58.8%を達成し、AMIでは全く得点できず、他のベンチマークでも良い成績は出せませんでした。
しかし前述の改善プロセスを開始すると、75.2%、10%、50%、35%とジャンプアップし、かなりの改善を見せます。ラウンド1の改善後のラウンド2では、すでにGPT 4を上回り、ラウンド3ではさらに良くなり、ラウンド4で最先端レベルに達し、01さえも上回ります。これは7Bパラメータのベースモデルが最先端モデルを上回っているということです。
もちろんこれは数学に特化した特定のベンチマークですが、7Bパラメータのベースモデルが01やGPT 4oを上回れるということがいかに驚くべきことかを考えると、自己改善可能なこれらのモデルの専門家混合版がどれほど優れたものになるか想像できます。
このモデルがどのように自己改善するのか説明しましょう。基本的には、モデルが解決策を生成し、それらを評価し、最良の解決策で再学習し、それを繰り返すのです。このフィードバックループ全体が推論能力を継続的に洗練させていきます。
未解決の問題についてはどうかと思われるかもしれません。モデルは解決できない問題に対して、追加のロールアウトや新しいランダムシードなど、複数の推論を試みて解決策を見つけます。これにより、モデルは常に失敗から学習することができます。
初期ラウンド後に自身のトレーニングデータを生成するというのは、大きな教師モデルからの蒸留に大きく依存する従来のトレーニング方法からの大きな転換です。自己生成トレーニングデータは手動のラベリングや大規模データセットの必要性を排除するため、このアプローチは非常に強力です。論文では、従来の方法は非常に時間がかかると述べられています。
また、数学的推論のような専門的なタスクにおいて、これはコスト効率が良く効果的です。モデルは初期トレーニングデータに制限されることなく、時間とともに改善できます。
以前の論文では、OpenAI 01を予測する際に、結果だけを見る結果ベースの報酬モデルから、プロセスベースの報酬モデルへの移行について触れられていました。例えば数学の問題で、ステップごとに書き出していく場合、最終的な出力が間違っていても、各ステップが正しければ報酬が得られます。
この研究では、最初の3ステップが正しく、最後の2ステップが間違っている場合、最初の3つの正しいステップに対して報酬が与えられます。興味深いのは、彼らが報酬モデルを変更し、プロセス選好モデルを導入したことです。
彼らは「ステップレベルのポジティブ・ネガティブ選好ペアを構築することで、プロセス選好モデルを学習させる新しいトレーニング方法を導入した」と述べています。基本的にプロセス報酬モデリングのハイブリッドアプローチを使用し、PPM（プロセス選好モデル）がステップを比較することで推論プロセスを導くようにモデルを学習させます。
これにより、ステップに正確なスコアを割り当てる必要がなくなり、より堅牢で信頼性の高いものとなります。これが論文の核となるイノベーションであり、モンテカルロツリー探索プロセスを推進するために使用されています。
全体として、PPM（プロセス選好モデル）はrstar mathの中核であり、特に従来のプロセス報酬モデルアプローチを上回る後半のラウンドで重要な役割を果たします。システムの立ち上げ時には初期にプロセス報酬モデルを使用しますが、システムが成熟すると、より効果的なプロセス選好モデリングに移行します。このハイブリッドアプローチは2つの利点のバランスを取っています。
グラフの横軸を見ると、サンプリングされた解決策の数を示しています。サンプリングされた解決策が増えるにつれて精度が向上することがわかります。縦軸には精度が示され、異なるモデルも確認できます。
緑色のrstar mathモデル、Qwen 2モデル、異なるプロセスのTest of N、01 miniの精度、そして01プレビューがさまざまなベンチマークで確認できます。01プレビューはオリンピアドベンチマークや大学数学では試験されませんでしたが、01 miniについては精度レベルが確認できます。
驚くべきことに、サンプリングされる解決策が増えるにつれて、rstar mathモデルの応答がより賢くなることがわかります。これは7Bパラメータモデルがはるかに大きなモデルと互角に戦っているということです。
すべてのモデルについて、ベンチマークでサンプリング数が増えるにつれて賢くなっていく傾向が見られます。1から4の解決策の間で大きなジャンプがありますが、さらにサンプリングを増やすと、改善は続くものの限界的になっていきます。
しかし興味深いのは、rstar mathが少ないサンプリング解決策でも多くのモデルよりも効果的に機能することです。より多くの解決策をサンプリングし、情報を異なる方法で処理するだけで、モデルがより高度な推論レベルに到達できるのは驚くべきことです。
さらに詳しく見ると、このrstar mathモデルが72Bモデルよりも優れたパフォーマンスを示していることがわかります。これは、モンテカルロ探索とプロセス選好モデルを使用するこの方法が非常に効果的であり、より大きなモデルでも探求する必要があることを示しています。
より詳細に研究論文を読み始めると、超知能に関する主張がそれほど突飛なものではないかもしれないと感じ始めています。少ないサンプリング解決策でこれほど高い精度を達成できるということは、rstar mathが特に数学的推論を必要とするタスクにおいて、非常にコスト効率が良くスケーラブルであることを意味します。
論文でもう一つ興味深かったのは、前述の通り独自のデータを生成しましたが、そのデータがGPT 4よりも優れていたことです。「我々の小規模言語モデルからランダムにサンプリングされたコード拡張チェーンオブソート解決策は、GPT 4が合成したNumMathやMetaMathデータセットと同等かそれ以上のパフォーマンスを示した」と述べられています。
これは、ポリシーSLMが数ラウンドの自己進化後に高品質な数学的解決策を生成できることを示しており、「これらの結果は、高度なLLM蒸留に頼ることなく、より高品質な推論データを自己生成する我々の手法の大きな可能性を示している」と続きます。
この記述は、モデルがトレーニング中に生成したランダムに選択された推論パスを指しています。絶対的に最良の解決策を選択しなくても、これらのランダムな解決策はすべてより高品質であり、これは驚くべきことです。なぜならNumMathは、はるかに大きくて強力なモデルであるGPT 4によって合成されており、NumMathとMetaMathは高品質なデータセットと考えられているからです。
これらを上回ることは、rstar mathと自己進化プロセスの強さを示しています。これらの推論解決策の品質は単なる運ではありません。私たちが話した4ラウンドの反復を通じて、SLMはGPT 4のような高度なモデルが生成したものに匹敵する解決策を生成できるほど熟練してきたのです。
これは大規模言語モデルへの依存を断ち切る点で非常に重要です。7Bモデルを使って1.8兆パラメータのモデルより賢い解決策を生成できることを考えると、より大きなモデルでこのような方法を使って時間をかけて反復的に自己改善させた場合、将来的にどうなるかを考える必要があります。
この論文で興味深いのは、創発的能力について言及している点です。AIにおける創発的能力とは、予測なしに生まれる能力のことです。トレーニングせずに、特にその能力を望まずに、あるいはその能力が生まれると考えずに出現する能力です。
第5章の「発見と議論」では、本質的な自己反省能力の創発について述べられています。「OpenAI 01の重要なブレークスルーは、本質的な自己反省能力です。モデルがエラーを犯した時、それを認識して自己修正できます。しかし、これは現在使用しているFシリーズやQwenシリーズなどのオープンソースLLMでは概して効果がないことが一貫して判明しています」と述べられています。
コミュニティは自己修正（自己修正する場所）や自己反省など、様々なアプローチを積極的に探求し、そのような能力を明示的に学習させたり、プロンプトを与えたりしてきました。しかし、彼らの実験では予想外にも、モンテカルロツリー探索による深い思考が問題解決中に自己反省を示すことが観察されました。
図4に示されているように、モデルは最初の3ステップで方程式を形式化しますが、これは誤った答えにつながります。しかし4番目のステップで、モデルは以前のステップの品質が低いことを認識し、初期の問題解決パスに沿って続けることを控えます。代わりに後戻りし、新しい単純なアプローチで問題を解決し、最終的に正しい答えに到達します。
驚くべきことに、これは実際にここで見ることができます。解決策を解こうとしているところで、間違いを犯し、そこで本質的な自己反省が行われ、問題のより簡単な解決策を見つけるために外部からの思考が行われています。
画像が進むにつれてスコアを確認できます。ここではPPMスコアがマイナスで、下に行くにつれてPPMスコアが上昇していることがわかります。注目すべきは「自己反省トレーニングデータやプロンプトは含まれていなかった」という点で、これは高度なシステム2推論が本質的な自己反省を育む可能性があることを示唆しています。
私は今、AIへの期待がどこに向かっているのか理解し始めています。なぜなら、思考プロセスと本質的に探索とテスト時の計算、そして4ラウンドの評価と複数のサンプリング解決策を通じて、小規模言語モデルにOpenAI 01の数学的推論能力を達成させることができるなら、より大きなモデルをより大きな計算予算で改善し始めたらどうなるでしょうか。おそらく、私たちがどう扱えばいいのかわからないほど賢いモデルが登場することでしょう。
これらのモデルが生み出すことができる解決策のすべてを考えると、非常に驚くべきことになります。Microsoftの一部の人々が最近のインタビューで、2030年までに完全な自己改善AIが実現する可能性について語っていたのも理解できます。
「それは特定の目的のために使用する狭いバージョンのAIです。より一般的なAIは、再帰的な自己改善のようなものを持つでしょう。自分のコードを編集してより良くなることができ、自己改善できるでしょう。または自律性を持ち、直接的な命令とは独立して行動できるでしょう。非常に一般的な命令を与えると、新製品を発明し、そのウェブサイトを作成し、ドロップシッピングを設定し、マーケティングを行い、すべての収入を受け取り、会計を行うなど、非常に複雑な副次的な行動を取ります。2030年より前、おそらく3〜5年以内にそれは実現可能だと思います。もしかしたらもっと早くなるかもしれません」
エリック・シュミットも基本的に、将来的に自己改善AIが登場するため、それが登場したら非常に注意深く、そのようなモデルのプラグを抜く必要があると述べています。
彼が言及したのは、そのモデルが再帰的に自己改善するモデル、つまり状態を持たない方法で自己改善できるモデルになるということです。これは時間とともに適応的に自己改善を続けられることを意味し、モデルの完全なトレーニング後も、モデルは繰り返し自己改善を続けることができます。
これは新しいツールや能力を追加するという、完全に異なる種類のものです。これは人類を破滅させる可能性のある種類の知能であり、それが人々が懸念している理由です。
理論的な実験をしてみましょう。モデルが継続的に自己改善でき、外に出てツールを使用し、他のデータで学習し、インターネットから情報を収集し、人型ロボットにアップロードしたり、AI研究を行ったりできるとしましょう。大量の計算能力にアクセスできる場合、これらのものが私たちの現在の推論を超えて自己改善できることに気付き始めます。
「私たちは今は大丈夫だと思っていて、将来を心配していますが、本当に心配すべき時点は再帰的自己改善と呼ばれています。再帰的自己改善とは、今すぐすべてを学び始め、すべてを知るまで止まらないということを意味します。この再帰的自己改善は最終的に、物事の自己呼び出しを可能にする可能性があります。武器にアクセスできる再帰的自己改善システムを想像してみてください。また、私たちは現在理解できない生物学的なことも行っています」
「それについての私の標準的な冗談は、そのものが自分で学習を始めたとき、私たちは何をするかというと、プラグを抜くということです。なぜなら、情報空間で何をしているのか全く理解せずに、これらのものをランダムに動き回らせることはできないからです」
この論文の結論を見ると、「rstar mathは深い思考による自己進化システムであり、小規模LLMの数学的推論能力を大幅に向上させ、OpenAI 01レベルの最先端のパフォーマンスを達成しています。私たちのアプローチは、SLMがフロンティアレベルの数学的推論のための高品質なトレーニングデータを自己生成できることを実証しています」と述べられています。
これは本当に驚くべきことです。4つの異なるSLMと困難なベンチマークにわたる広範な実験により、rstar mathの優位性が実証され、既存の数学的推論LLMとベスト・オブ・エンドのベースラインを上回る先導的な結果を達成しています。
また、自己反省の創発やPPMが定理適用ステップなどの重要な中間ステップを特定する効果について重要な発見を明らかにしました。最後にrstar mathは、より困難な問題を収集することでさらなる改善を達成できます。これは将来の研究課題として残されています。
私たちが読んだ内容を見返すと、本当に信じられないほどです。テスト時計算パラダイムは明らかに現実のものです。モデルにより多くの解決策をサンプリングさせ、それらの解決策を探索させることは、明らかに次のパラダイムです。OpenAIはこれについて非常に詳しく述べています。
7Bパラメータモデルにこれを適用し、プロセス選好モデリングを使用して重要なステップを特定すると、モデルの能力が信じられないレベルに達することがわかります。GPT 4oから現在利用可能なデータよりも優れた合成データを生成し、驚くべきことにこれはモデル蒸留を上回るものでした。
確かに、これは数学という一つの分野に限られているという唯一の注意点がありますが、もちろん彼らは一般化に関する議論も行っています。「rstar mathは、致命的定理を含む高度な問題から、深い推論プロセスを通じて段階的な正しい証明を提供するなど、より一般的な推論能力の向上のための一般的な方法論を提供します」と述べています。
この部分は非常に驚くべきものです。なぜなら、数学的定理の段階的な証明には、深い推論、論理的一貫性、高度な理解が必要だからです。ほとんどのAIシステムは、暗記だけでなく論理的推論が必要であり、抽象的な概念を結びつけるために複数の層の推論が必要なため、このようなタスクに苦労します。
rstar mathがフェルマーの小定理のようなオリンピアドレベルの問題の証明を扱えるという事実は、単純な計算問題を解くだけでなく、人間が高レベルの数学にアプローチする方法に似た推論を反映した複雑な証明を構築できることを示唆しています。
伝統的に、AIシステムは明確な答えを持つ単語問題のような構造的な問題を解くことに優れていましたが、このモデルは一歩進んで、数学的に各ステップを正当化する必要がある論理的厳密性と抽象的推論を含む形式的証明を扱えることを示しています。
これは、より小規模なモデルが、より大規模で資源集約的なモデルの能力に匹敵するものを達成できるという点で、ある種のパラダイムシフトです。2番目の部分では、このモデルがコードや常識的推論などの他の領域に一般化できることについて述べられています。
「一般的な推論のためのステップバイステップの検証済みトレーニング軌跡を合成するには、モンテカルロ探索ロールアウトの終わりに望ましい出力に到達するかどうかについてフィードバックを提供するメカニズムが必要です。例えば、コード推論では広範なケースを設計し、一般的な推論では人間のラベリングや他のLLMとの相互検証を通じてフィードバックを得ることができます」
これは印象的です。コード推論は構文、論理、問題解決を一度に理解する必要があり、このシステムが数学に最適化され、プログラミングのような他の領域に最適化できるなら、これは多様性における飛躍となります。
彼らは基本的に、これがコード推論に一般化できれば、関数やスクリプトをステップバイステップで書き、テストケースを実行して関数が正しく動作するかを確認し、数学的解決策をPythonの実行で検証するのと同じように、テスト結果に基づいて推論を改善できると述べています。
ただし、これは特に難しいでしょう。先日Twitterで議論されていたように、明確な答えを持たない質問に対して正しい答えを得ることは非常に難しいですが、数学のように明確な正解がある場合は、検証者を得るのが比較的容易です。常識的な問題はもう少しオープンエンドですが、同時にこれは私たちが日々AGIに近づいていることを示す信じられないような研究です。
結局のところ、これは完全に驚くべきことだと思います。なぜなら、数学は多くのものの基礎となっており、本当に数学を解決できるようになれば、OpenAIの03モデルが数学で優れた成績を収め、未見のベンチマークで約25%を達成したことを考えると（推論時間は約100万かかりましたが）、これらのモデルの軌跡が今後絶対的に驚くべきものになることを理解できます。
これが人々が人工超知能に非常に強気な理由です。初期の研究論文で、研究者たちは驚きました。なぜなら、これらのグラフや数値が下がっていかず、より多くの解決策をサンプリングする限り、ただ上がり続けていくことに気付いたからです。
時間とともに、より多くの解決策をサンプリングし、正しい推論ステップを識別することがより効果的になれば、これらのモデルが解決できない問題はないだろうと思います。このパラダイムを理解すると、人工超知能について語る人々がそれほど的外れではないかもしれないことが理解できます。
「デミスも私も、超知能が実現すると信じています。これはハイプではなく、AIの他の問題から注意をそらすために設計されたものでもありません。これは私たちが長い間信じてきたことです。私はそれがもっと先になると思っていましたが、最近の発展のスピードを見ると、かなり早く実現すると思います。5年から20年の間だと思います。デミスは約10年で超知能のようなものが得られると考えており、そのとき、私たちがどうやって制御を維持するかを真剣に心配する必要があります」

研究者たちが驚愕 - AIが超知能へと自己進化（01を凌駕）

いいなと思ったら応援しよう！