見出し画像

Googleの新しい推論SFTとRL - 最初の考察

9,468 文字

こんにちはコミュニティの皆さん。今日は知的な炉を熱くして、大規模言語モデルの推論時の学習について深く掘り下げていきましょう。Gemini 2.0のような最新モデルやFlash思考、OpenAIのo1やo3、そしてQ1やQW、Q32 Bモデルなどで見られる推論コンピューティング、つまりテスト時のコンピューティングについて考えていきます。私たちは改善された推論と最新のテクノロジーを見たいと思っています。
ここで重要な非効率性があります。それは、私たちのLLMが推論プロセスを考慮して学習されていないということです。ここでは他のオープンソースプロジェクトやオープンソースLLMについても言及しています。そこで、Googleの最新の研究に基づいて、新しい推論学習について見ていきたいと思います。この学習プロセスは、テスト時の計算中に行われる推論戦略をLLM学習方法の中核に組み込むことになります。
学習というとき、教師あり微調整と強化学習に関連するすべてのことを指します。あなたは「似たようなものを見せてくれたじゃないか」と言うかもしれません。このビデオで私が紹介したOpenAIの実装では、Chain of Thoughtのような推論の連鎖による安全性の実装でした。しかし、Googleの新しい論文はもっと興味深いことをしています。
彼らは教師あり微調整と強化学習のために、推論に最適化された学習方法論を採用しています。これはまだChain of ThoughtのようなOpenAIの手法に最適化されているわけではありませんが、Googleは本質的な部分に踏み込んで、教師あり微調整と強化学習の方法論自体を、より良い推論パフォーマンスのために最適化しているのです。
これはまだ特定の推論メカニズム、例えばChain of Thoughtに最適化されているわけではありません。なぜなら、それが適用できる最良の推論メカニズムではないかもしれないからです。Googleの最新の技術報告書を見たとき、私は完全に魅了されました。
中心的なイノベーションは、私たちの微調整と強化学習の学習目的を変更することにあります。私たちは従来の方法を捨て去り、新しいアイデアを見つけなければなりません。それは「推論を意識した教師あり微調整」と呼ばれ、テスト時のコンピューティングで発生する推論エラープロセスのために既に最適化されている教師あり微調整のための「ベストオブN」方法論です。
従来の教師あり微調整はご存知でしょう。しかし、今回はさらに興味深いものにしたいと思います。ベストオブNメカニズムから得られる最良の応答として、エキスパートの応答が選択される確率を最大化することを目指します。
これをどのように行うのでしょうか。残念ながら多くの数学が関係していますが、このビデオに従えば比較的簡単です。このアイデアを単純な方程式で表現できます。ここでπまたはポリシーはベストオブN戦略を表しています。しかし、これは重要な問題となります。なぜなら、この関数内にベストオブN演算の中に微分不可能なMax関数があるからです。
Googleと研究者たちは素晴らしいアイデアを思いつきました。彼らは有理近似を適用し、この新しい技術は滑らかさを見出し、より良い解決策を得ることができました。この方程式を見ると、Qπはベースポリシーからサンプリングされた他の応答に対する応答yの期待勝率を定量化しています。検証器のスコアに基づいているのですが、検証器については後で説明する必要がある重要な要素です。
この新しい目的関数の勾配が学習信号を提供します。これを見て、私は最初理解できませんでした。そこで、私なりの理解の仕方を説明させてください。ここに単純な式があり、問題はまさにここにあります。ベストオブN戦略を見るポリシーπの中にあります。
このポリシーには ArgMax演算が含まれていますが、これは離散的な演算であることを覚えておいてください。つまり、簡単には微分できません。ニューラルネットワークの学習における私たちの主力である勾配ベースの最適化手法は、導関数や勾配演算を計算する能力に完全に依存しています。ArgMaxを直接逆伝播することはできません。
Googleの解決策は、ベストオブNポリシーπを、この方程式に比例するエネルギーベースのポリシーで近似する有理近似を使用することでした。「なるほど面白い。これは何なんだ?」と思われるかもしれません。
pシンボルは、プロンプトXに対する応答yを生成するベースポリシーの確率を表します。これは単にその応答を生成する古典的な初期尤度を表しています。しかし、この近似によって導入された重要な項は、この指数関数です。
要素を見ていきましょう。まず、Qπがあります。これは特定の応答yの期待勝率です。つまり、応答yがベースポリシーπによって生成された他の応答よりも高い検証器スコアを持つ確率です。形式的には、Iは指示関数で、条件が真なら1、偽なら0を返す単純な関数です。
λ(N)は正の定数で、サンプル数Nに依存し、単にスケーリング係数として機能します。Nが大きくなると、λ(N)は増加し、指数項が全体的な図の中でより影響力を持つようになります。比例関係において、この式を適切な確率分布にするために正規化する必要があり、これがベストオブN教師あり微調整目的関数の分配関数Zにつながります。
変分近似は本質的に以下のことを行います。勝利する応答に報酬を与えるのです。この指数項は、最良のものとして選ばれる可能性が高い応答への報酬として機能します。応答yが他の生成された応答よりも優れている確率が高い場合、この項は大きくなり、yがベストオブNで選択される応答である全体的な近似確率が増加します。
これは選択を滑らかにします。利点は単純で、微分することができるのです。これにより、逆伝播のような標準的な勾配ベースの最適化技術を使用してモデルを学習させることができます。教師あり微調整を捨て去る必要があると言いましたが、逆伝播のような勾配ベースの最適化は捨てる必要はありません。変分近似があるので使用できるのです。
ベストオブN方法論との関連は、この近似がベストオブN戦略の本質を捉えているということです。Nが増加し、それに伴いλ(N)も増加すると、近似はより鋭くなり、ArgMax関数のハードな選択をより密接に模倣します。これが私たちが始めた地点です。
数学的なレベルでは素晴らしいアイデアです。Googleの技術論文には数ページにわたる説明がありますが、私は理解するための近道だけを紹介しました。では、本題に入りましょう。この数学的近似を用いた新しいベストオブN教師あり微調整目的関数は、学習レベルで推論戦略を考慮に入れます。
この新しい方法論を詳しく見ていきましょう。Googleは、この対数を簡略化できることを示しました。先ほど示したバージョンになります。この変分近似は、微分不可能な最適化問題を、逆伝播のような古典的なツールで解決できる問題に変換するための巧妙な数学的な変換だと言えます。トリックとは呼びたくありませんが。
正直なところ、私にはまだ理解できていません。この式の各項が何をしているのか理解したいと思います。私の単純な考えで、この数学的な式を理解しようと試みました。最大化は目標です。可能なすべてのポリシーの空間の中で最適なポリシーπを見つけることです。
Eは学習データ分布Dに対する期待値を表します。つまり、すべての学習例に対して内部の式の平均を取るということです。しかし、ここで気づきました。これは既に演算子であり、もはや関数ではありません。そこで、もう一度やり直して、各項を本当に詳しく見ていきましょう。
これは利用可能なポリシーの最大化で、利用可能なすべてのポリシーの特定の空間内で行われます。この部分は私たちの目標を示しています。学習フェーズでLLMの最適なポリシーπを見つけたいのです。πそのものは確率分布を表し、モデルは特定のユーザープロンプトに対する応答を生成するためにこれを使用します。
大文字のΠは、モデルが理論的に学習し、探索アルゴリズムで見つけることができるすべての可能なポリシーの空間です。maxは単に最高値を探していることを意味します。Eは期待値演算子です。より抽象的なレベルで見ると、括弧内の式の平均値を学習データセットDに対して計算しているということです。
XとYは学習セットの単純なデータポイントを表し、Xはプロンプト、YはLLMによる対応する専門家の応答です。Dは単にこれらのデータポイントを特定の分布から、つまり私たちの学習データから取得していることを意味します。学習データへの感応性、あるいはより簡単な言葉で言えば、モデルの学習に使用するすべての例にわたって結果の平均を取っているのです。
では、この括弧の中に飛び込んで、これら3つか4つの項が実際に何をしているのか、本当に理解しましょう。これはπの対数尤度項で、これは従来の教師あり微調整で使用されているものです。πは、特定のユーザープロンプトXが与えられたときに専門家の応答を生成する、LLMの現在のポリシーπによって割り当てられる確率です。
logは自然対数です。この項は、LLMに専門家の応答に高い確率を割り当てることを促します。この確率が高ければ高いほど、logπの値は大きくなります。これにより、LLMモデルは古典的な従来の教師あり微調整において専門家データを模倣するように促されます。
そして今、最初の推論を意識した追加項があります。これは新しく、単純なベストオブN方法論によって導入された新しい項です。教師あり微調整を推論を意識したものにするための他の方法論も考えられますが、例えばGoogle研究のアルゴリズムなどです。
私たちのQは期待勝率です。なぜなら、これは専門家の応答yがベストオブNメカニズム自体によって最良の応答として選択される確率だからです。他の応答と比較して最高の検証器スコアを持つためです。モデルπは同じユーザープロンプトXから生成する可能性があります。λはただのスケーリング係数です。
つまり、学習フェースで最初の推論を意識した項があります。そして、特定の項を差し引きます。この項は分配関数の対数を持ちます。分配関数は、Googleの様々な論文で出会う可能性のある神秘的なZ関数です。これは、近似されたベストオブNポリシーが数学的な意味で有効な確率分布であることを保証するために重要です。
なぜなら、Googleが使用した技術である有理近似は、この項に比例するスコアまたはエネルギーを各応答に対して導きます。そしてこれらのスコアを確率に変換し、1に合計されるようにするためには、すべての可能な応答に対するこれらのスコアの合計で割る必要があります。この合計が分配関数Zが表すものです。
Y'は単に、すべての可能な応答Y'に対する合計です。この負の対数は一種の正規化子です。古典的な図で考えると、この項を差し引くことで、近似されたベストオブNポリシーが適切に正規化され、有効な確率分布として振る舞うことが保証されます。確率は1に合計されるという従来の学習から知っているものです。これを、すべての確率を確認する均衡因子と考えてください。
これで理解できました。このベストオブN教師あり微調整という新しい目的関数を最大化することで、LLMモデルは専門家の応答に似た応答を生成するだけでなく、ベストオブN戦略がテスト時、つまり推論時に適用されたときに、専門家の応答が最も勝者となる可能性が高くなるような特定の方法で生成するように学習します。これを理解するのに時間がかかったかもしれませんが、要点は理解できました。
しかし、学習の最適化について、私たちはここで教師あり微調整だけを見てきました。「強化学習の部分はどうなの?」と思われるかもしれません。OpenAIはDPOを使用せず、特に古典的な報酬モデルを使用していることを私たちは理解しています。Googleはこの推論を意識した強化学習手順、つまり彼らが「ベストオブN強化学習」と呼ぶものをどのように実装しているのでしょうか。
従来の強化学習は、単一のアクションに対する期待報酬を最大化することを目指します。これは古典的なアプローチです。新しい推論を意識した強化学習方法論は、大胆にも報酬の焦点を完全なベストオブNプロセスの結果に移行します。
LLMは、生成されたセットの中から検証器が最良と判断した特定の応答の期待報酬を最大化するように学習されます。もはや単一の応答だけではありません。セットを通過するこの操作が重要です。すぐに例を示しましょう。
この方程式は単純ではありません。後でこれに戻りたいと思いますが、検証器について考え、ベストオブN推論戦略における重要なコンポーネントであることを理解しましょう。結果として、教師あり微調整と強化学習の両方で、推論を意識した学習方法論において重要な役割を果たします。
しかし、複雑さが少し上がってきます。そのため、検証器を詳しく見ると、それは推論中に使用される受動的なコンポーネントではなく、教師あり微調整と強化学習の両方で学習プロセスを導く上で本当に重要であることがわかります。
教師あり微調整では、先ほど示したように、検証器のスコアはQπ、つまり応答の期待勝率を推定するために使用されます。これは、与えられた応答が検証器によって最良のものとして選ばれる可能性がどれくらいあるかをモデルに伝えます。しかし、これはどのように行われるのでしょうか。そう簡単ではありません。
そして強化学習に移ると、ここから面白くなります。このビデオではここまでにして、おそらくパート2で強化学習も詳しく見ていき、教師あり微調整と新しい強化学習方法論を理解した上で、学習プロセスの両方の部分に対して検証器を最適化する方法を、私たちの共通の知性を使って考えていきましょう。
この最初の入門ビデオではこれ以上は多すぎるでしょう。短いまとめをすると、このGoogleのアプローチの核心は、学習目的自体を再形成することにあります。私たちは本当に学習プロセスの核心に触れ、学習プロセスが意図された推論戦略を明示的に意識するようにしたいのです。
これは後でテスト時の計算で行われますが、すでに学習プロセスをこのテスト時の計算のために最適化すれば、最良の結果が得られます。これはインターネットで読めるような、新しいハイパーパラメータを調整するということではありません。それは間違いでしょう。
これは本当に根本的な新しい選択です。数学的なレベルで学習目的、学習目標を変更し、教師あり微調整に適用するコードを本当に変更するのです。私の単純な考えで、視覚的な理解を試みました。
現在の自己回帰アーキテクチャでは、システムは単一の最良の次のトークンを予測します。私たちは1つのトークンを持ち、次のトークン、その次のトークン、そして次の最良のトークンを生成します。ここでは次は最良のトークンだけです。これが今日の古典的なトランスフォーマーで、Anthropicからperplexityまで何を使っても同じです。
しかし、ベストオブNに最適化し、教師あり微調整と強化学習の方法論を組み合わせた場合を想像してみてください。私たちは最良のものを選びますが、LLMの単一の答えに焦点を当てるのではなく、ベストオブNを望むため、トランスフォーマーによって生成されたN個の異なるバージョンを持つ必要があります。
そして、1つのトークンステップだけでなく、より高い複雑さに向かいます。単純な考えとして、このシステムが最良だけでなく、2番目に良いものも選ぶとしたらどうでしょうか。そして次のステップも最良だけでなく、2番目に良いものも選びます。なぜならベストオブNの方法論があるからです。
そして私は思いました。もしこれが方法だとしたら、突然、単なる最良レベルだけでなく、さらに良い、スーパーな解決策への道が開かれるかもしれません。これは古典的な最良、最良、最良、最良という経路だけで行くと到達できない解決策です。
なぜなら、新しい革新的な解決策へのアクセスパスは、次の最良のトークンに対して単一の選択だけを行うのではないからです。私の単純なイメージでこれを想像しようとしました。
最良だけを持ち、この単一の最良トークンのアイデアでベストオブNを適用するトランスフォーマーアーキテクチャがあるとします。同じ同一のジョブで、例えばSonnetを3回実行しますが、Sonnetは最良だけを、そしてまた最良だけを選びます。
モデルアーキテクチャの2つまたは3つの異なる実行の収束は、多かれ少なかれこの特定の領域に収束します。同一の結果を与えることはありません。確率システムだからできません。しかし、例えばこのSonnetが与える解決策の領域は、この特定のポテンシャル構造の境界付近に位置付けることができます。
線形な最良だけのモデルで行くと、1つのローカルな最小値または最大値構造しか発見できないことがわかります。逆伝播をどこで行っても、発散することはありません。しかし、最良ではなく2番目に良いもので行き、最良の軌道から離れ、ポリシー空間の探索空間の異なる領域を探索するとどうなるでしょうか。
2番目に良いものだけで行き、ローカルな最小最大値を発見するかもしれません。あるいは2番目に良いものを基に構築し、トポロジーにおけるローカルな最小最大値構造を発見するかもしれません。または完全に異なる方向に行き、2番目に良い、3番目に良い、そして再び最良に戻るかもしれません。そうすることでスーパーな解決策への道が開かれるかもしれません。
私の単純な考えでは、古典的なアーキテクチャを持ち、ベストオブNアーキテクチャ実行を適用する場合、なぜそうなるのかを理解しようとしました。Sonnetを5回実行すると、解決策は異なりますが、多かれ少なかれすべて解決空間の1つの領域に焦点を当てることになります。
しかし、ベストオブNの最適化を学習プロセス、微調整、強化学習に取り入れると、モデル自体が推論実行時に、私の単純な言葉で言えば、トポロジーにおけるより多くの最小最大値構成を探索します。したがって異なる解決策があり、そのうちの1つがスーパーな解決策への入り口となる可能性があります。
私は単純な人間で、これは視覚化の側面からも理解しようとする私の単純なアイデアです。まとめると、私たちは教師あり微調整のための新しい推論を意識した学習手順を持っており、最も単純なケースではベストオブNがあります。これ以上単純にはできません。
従来の教師あり微調整は専門家の応答の尤度を最大化しますが、新しい推論を意識した教師あり微調整は強度を上げ、専門家の応答がベストオブNメカニズムによって最良として選択される尤度を最大化します。
これは、モデル、私たちのLLMが応答のセット、複数の応答を生成することを学習し、望ましい答えがベストオブN選択プロセスで選ばれる要素として最も可能性が高くなるということを意味します。同じことが推論を意識した強化学習にも当てはまりますが、そこではまだ良い例を見つけていません。したがってビデオ2を数日以内に公開できることを願っています。
結論として、Googleはここで完全に新しい推論を意識した学習プロセスという美しいアイデアを持っており、これはLLMの学習自体をどのように行うかという根本的な転換を表しています。o1やo3システム、Q1のqw、あるいはGoogleのFlash思考モデルのような高い推論性能を望むならば。
これは彼らが言うように、LLMの学習手順を改善することで、LLM内の潜在的な可能性を解き放つものだと思います。私たちは推論時にこの推論能力を望んでいます。これは既存の推論方法論でより良い結果を得るだけではなく、本当にLLMがこれらの方法論をより効果的に活用することを本質的に学習することについてです。
たくさんの解決策から学び、常に単一の解決策が選ばれるわけではありません。これによってGoogleはメタ戦略と呼んでいますが、このメタ戦略という言葉が思い出させることがあります。説明させてください。
Googleは、これは新しいLLM開発と学習の時代を開くものだと言っています。学習と推論が完璧な同期を保つ時代です。o3モデルやFlash思考モデルの美しい推論推論を持つためには、学習プロセスが推論的因果推論のために最適化される必要があります。
このメタ戦略は、数日前のこのビデオを思い出させます。そこでは、oモデルにおける安全性指示がどのように実装されているかを読みました。o3 miniが例として挙げられていました。この推論手順、これもある種のメタ戦略として見ることができます。メタ社ではなく、上位レベルの戦略としてです。
そして、OpenAIとメタが、AIのパフォーマンスを向上させるために大規模言語モデルからこの大規模概念モデルに移行したことを考えると、このビデオでメタによるコード実装による概念が何であるかを示しました。概念も、実装したいポリシーの戦略の上位レベルの集約と見なすことができます。
このGoogleによる新しいメタ戦略は、この3つすべてが大規模言語モデルと視覚言語モデルのさらなる開発において、なんらかの形で同じ方向に動いているような感じがします。
Googleの最新論文を読むのは本当に魅力的でした。これは私が読んだ1日目です。数学モデルに深く入り込みたい場合は、この論文「LLMsにおけるベストオブNサンプリングのための推論微調整」をお勧めします。これはGoogle DeepMind、Google Research、12月18日のものです。リンクはここにあります。すぐに見つからない場合でも、多くの数学的証明が提供されています。
私が示したことは、これが本当に解決策であり、特定の境界条件だけでなく一般的な解決策であることを数学的に証明する必要があるからです。この論文を見れば、Google DeepMindが本当に学習プロセスの核心に迫ったことの美しさがすぐに理解できます。
OpenAIのようにChain of Thoughtの推論戦略だけでなく、彼らは本当に教師あり微調整と強化学習の本質的な中核プロセスを最適化しているのです。もしこのビデオが気に入られ、いくつかの「いいね」を得られれば、次のビデオでGoogleによる高度な強化学習方法論について取り上げたいと思います。
ご覧のように、本当に魅惑的な時代です。2025年まで新しいイノベーションを待つ必要はありません。今はクリスマスと年末の間ですが、Googleは私たちに何ができるかを示してくれています。これは本当に魅惑的だと思います。
これがクリスマス後の初日の内容です。興味深く感じていただけたなら幸いです。もし良ければチャンネル登録をお願いします。次のビデオでお会いしましょう。

いいなと思ったら応援しよう!