推論ポリシーが新しい強化学習を定義する(テスト時)

2024年12月28日 05:52

4,800 文字

前回の動画では推論における教師あり微調整について見てきましたが、今回は強化学習に目を向けていきます。推論フェーズを最適化するための新しい強化学習アルゴリズムを実装していきましょう。
ご存知の通り、私たちは言いました。推論時において、LLMで学習したポリシーは、テスト時の計算に直接使用されるわけではなく、異なる推論戦略が適用されると。この戦略を私たちはIと呼び、テスト時の計算に適用されます。前回の例で見たように、Iは最良のN個の戦略である可能性があります。これは複数の候補となる応答をサンプリングし、検証器からのスコア関数を使用して最良のものを選択します。また、Iは新しい探索メカニズムや自己修正メカニズムなどかもしれません。
このGoogleのインサイトの素晴らしい点は、抽象的な関数Iについて考察し、最良のN個の戦略についての具体例を見ていくことです。これは、教師あり微調整の後に、推論戦略を選択した際に、この新しい推論戦略を考慮する必要があることを意味します。推論戦略Iによって、教師あり微調整と強化学習の目的関数が変更されるのです。一貫した推論戦略を教師あり微調整と強化学習に組み込む必要があるからです。
前回の動画では、推論を考慮した教師あり微調整のための数式を見ました。今回は推論を考慮した強化学習の方法論の例を見ていきます。これは、固定された基本ポリシーpと任意のプロンプトXに対して、最適な温度Tと最適なサンプル数nが存在し、それらがN個の最良のパフォーマンスを最大化するということを意味します。
このN個の最良の推論戦略Bについての問題設定は、かなり単純明快です。ある温度Tで言語モデルから応答をサンプリングし、検証器スコアRに基づいて最良のものを選択します。前回の動画で見たように、N個の最良の特定の推論ポリシーは、この美しい形式で書き直すことができます。
注意すべき点として、検証器スコアRと強化学習における真の報酬Rは関連している、あるいは同一である可能性がありますが、この時点では何も仮定していません。通常、Rは実際の報酬を予測するように訓練されたモデルであり、環境からエージェントへの真の報酬の代理としてのみ機能します。
したがって、上記の戦略は、LLM訓練における純粋に学習されたポリシーπとは異なるN個の最良のポリシーのクラスを定義することを意味します。前回の動画で示したように、訓練手順と推論手順の間にギャップが存在することを示しています。これは良くありません。なぜなら、訓練と推論のポリシーに一貫性がないと性能が低下するからです。
そこで、このN個の最良のポリシーのクラスを推論を考慮した教師あり微調整に注入します。前回の動画でこれを行い、今回は推論を考慮した強化学習の枠組みでこれを見ていきます。前回の動画はほぼこの公式で終わりました。N個の最良の分布の非微分性を数学的な最適化によって回避できるという洞察を得て、標準的な勾配上昇アルゴリズムによる古典的な解法が可能になりました。
前回の推論を考慮した新しい教師あり微調整のコードでは、専門家のデータを使用しましたが、その方法論には明示的な報酬学習は含まれていませんでした。最良の出力を選択するために検証器に依存し、positive例のみで訓練を行います。何かが欠けているということです。前回はお見せしませんでしたが、この単純化が許容されることの数学的証明がGoogleの公式論文にあります。前回既にリンクをお伝えしました。
では、動画を始めましょう。ここでは強化学習を使用した推論を考慮した微調整に焦点を当てます。強化学習のコードセグメントを書き直す必要があります。O3モデルやqwqモデルで、論理的な因果推論がリアルタイムで起こるのを見たい場合、どのように強化学習を最適化できるかを深く掘り下げる必要があります。
強化学習のパラダイムをご存知の方は、それが単純であることをご存知でしょう。特定の環境内で特定のアクション（ロボットのアクションを考えてください）を最適化するエージェント（大規模言語モデル）を訓練します。LLMは与えられたプロンプトに対してn個の応答（候補となるアクション）を生成します。別のエージェント（検証器と呼びましょう）が、事前に定義された基準（特定の環境での特定のアクションの成功確率など）に従って、最も適切と思われる候補を選択します。このアクションは環境に展開され、特定の環境報酬（タスク完了率85%、100%など）が得られます。
簡単な視覚化を見てみましょう。ここにN個の最良のために最適化されたポリシーπがあり、古典的なポリシーπがあります。これらは複数の解を生成し、検証器が環境報酬を与え、ポリシーを更新します。N個の最良のポリシーは、N個のサンプルの中で最良の環境報酬を最適化します。
このエージェントの訓練における主要な課題は、2つの目的を同時に達成することにあります。エージェントの探索能力を向上させたいのです。つまり、潜在的な解の空間の多くをカバーする多様な候補を生成してほしいのです。数学的な空間を解空間として考えた場合、エージェントが本当にその空間のすべての隅々を探索し、検証器の選好に沿うようにしたいのです。同時に、最終的な応答の環境報酬を最大化したいのです。
Googleは論文でLama 2を示しました。視聴者から、Googleの原論文の表記に忠実に従うようにリクエストされましたので、並行して読めるようにしています。これがLama 2で、推論実行で選択するN個の最良の推論ポリシーです。LLMの訓練で強化学習アルゴリズムを最適化します。この式の勾配は、分散削減のための新しいベースラインを持つこの形で単純に与えられます。
興味がある方は読むことができますし、そうでない方は、これが式であり、検証器付きのN個の最良の強化学習モデルと呼ぶだけで構いません。この特定の目的関数の勾配推定器があります。Googleの公式文書には、この単純化が許容されることの数学的証明があります。さらに単純にして、バイナリ報酬と検証器を持つ強化学習が欲しいと言えば、検証器に既知のバイナリ報酬（0から1の間）でさらなる単純化が可能です。
定理はこの特定のケースの閉形式解を示唆し、補題がこの式の勾配を与えます。これはこのバイナリ報酬ケース（特別なケース）の効率的なポリシー勾配推定器であるだけでなく、より重要なことに、その勾配更新においてpositive例とnegative例のバランスを取る方法を示しています。ただし、positive例のみを使用することもできます。つまり、positive例からnegative例への再重み付けを行わず、この特定のケースではpositive例により大きな影響を与えます。
Googleの方法論では、positiveのみを使用し、positive重みのみに重みを付けます。すると式はさらに単純化されます。概要を見たい場合は、これが全てです。N個の最良の推論ポリシー（最も単純な推論ポリシー）があり、教師あり微調整（前回の動画で見ました）があり、今回はこれら4つのケースを見ています。positiveのみの値を覚えておいてください。どのモデルが報酬関数を使用しているかが分かります。すべての強化学習が特定の報酬関数を使用します。最初のものは異なる検証器を使用するか、バイナリ検証器を使用してpositiveの形式のみを使用するか、閉形式で達成できるか、これらがモデルのすべての異なる順列です。
Googleにとって非常に興味深い質問の1つは、推論ポリシーのサンプル数とLLMの特定の温度との間に共同スケーリング関係があるかどうかでした。これにより、両方のパラメータの結合最適化プロセスが可能になります。
彼らが発見したことをGoogleは次のように述べています。より低い温度は一般的により良い精度をもたらすことが分かりました。非常に低い温度では、N個の最良の精度がnとともに向上し、アルゴリズムが探索フェーズではなく、解空間での解の活用フェーズにとどまっていることを示しています。これは私たちが望むものではありません。この推論戦略の最適なパフォーマンスは、常にそうであるように、探索フェーズと活用フェーズの間のバランスを取る適度なn値で作業する場合に得られると彼らは述べています。
数学的なベンチマークの1つの精度を見たい場合、青色のベースマークがあり、先ほど話したすべての異なるモデルとそのパフォーマンスが数nに依存しており、ここでは単純に70%の精度があります。Googleは次のように述べています：「これらの発見は、この新しい推論を考慮した微調整（教師あり微調整と強化学習）の可能性を強調しています。新しい推論テスト時計算戦略と訓練方法論（教師あり微調整と強化学習）を整合させるというこの新しいアイデアを通じて、私たちの大規模言語モデルにおいて以前は発見されていなかった能力を解き放つことができます。」
Googleは現在、より複雑な推論アルゴリズムを組み込むためにこの枠組みを拡張することが今後の作業に含まれると述べています。推論に進みます。なぜなら、これまでは非常に一般的で、推論での異なるポリシー実装を見ているだけだったからです。彼らは推論、批評、再検討、モンテカルロ探索アルゴリズム、より高い汎化に進むと言います。
これについて考えると、前回の動画で教師あり微調整を見て、今回は強化学習を見ましたが、Googleはここでより一般的な数学、特定の推論ポリシーとは独立した過程の最適化方法に焦点を当てています。O3と安全性の実装に関するこの動画では、OpenAIが既に特定の推論戦略を推論ポリシーとして実装していることを示しました。テスト時の計算で思考の連鎖（複数の思考の連鎖）を使用したいことを知っていたため、既に思考の連鎖という推論ポリシーのために教師あり微調整を最適化し、強化学習推論ポリシーも思考の連鎖に最適化していました。
ご覧の通り、すべての企業が多かれ少なかれ同じことを異なるレベルの詳細さで行っているのが分かります。OpenAIは思考の連鎖という1つの特定の方法論に直接向かい、Googleはここでより数学的に豊かで、より一般的に、強化学習のポリシーの異なる実装、報酬関数、検証器スコアの一般的な依存関係を分析しています。これが実際の環境報酬に収束することを期待しています。
Googleの作業は、まったく些細ではない一般的な数学的解決に非常に焦点を当てていることが分かります。Googleのオリジナル論文を見ると、裏で多くの仮定が行われていることが分かります。そうでなければ、計算で迷子になってしまうような解に到達するためです。多くの知識、多くの数学、歴史的な発展における多くの洞察があります。強化学習の実装で見られるこれらの公式の一部は、その基本的なアイデアが1993年にまで遡り、異なる分野から来ていますが、テスト時計算や推論学習、推論因果推論に適用可能な数学的解決策を見つけるために彼らも苦心していたのです。
現在起きていることは絶対に魅力的です。古典的な教師あり微調整コードと古典的な強化学習を捨て去り、このLLMを展開し、推論における何らかのテスト時計算の最適化を持ちたいことを知っているため、新しい教師あり微調整ポリシーと最適化された推論対応の強化学習ポリシーを持つ新しいモデルを既に構築しているのです。
Googleのオリジナル論文を見ることで多くを学びました。この動画を楽しんでいただけたなら幸いです。購読していただければ、次回の動画でお会いしましょう。

推論ポリシーが新しい強化学習を定義する(テスト時)

いいなと思ったら応援しよう！