![見出し画像](https://assets.st-note.com/production/uploads/images/161639894/rectangle_large_type_2_f8cfc9e73f95504002996bdb62e342a1.png?width=1200)
新しいQ学習を用いたAIエージェント: Q-SFT (カリフォルニア大学バークレー校)
3,481 文字
皆さんこんにちは。今日は過去を再評価し、未来を再定義するエージェントについてお話しします。私たちが目指すのは、人間との対話において真に対話的で、会話の天才とも言えるような対話エージェントです。これは人々を困難な状況に導き、共感を示すことができるものでなければなりません。
文脈の連続性、目標の整合性、そして学習の新しい効率性において、いくつかのユニークな課題があります。ここでご紹介したいのは、カリフォルニア大学バークレー校による2つの新しい論文です。
1つ目は事後的再生成に関するもので、これは長期的な目標を達成するために適用した戦略を再評価することで、エージェントが過去の会話から学ぶことを可能にする手法です。2つ目は未来に目を向けたもので、Q学習を扱っていますが、ここでは教師あり微調整アプローチを用いて、ロボット工学のための視覚言語モデルや人間との会話のための大規模言語モデルに複雑な構造的変更を加えることなく、エージェントの戦略的計画能力を最適化しています。
これらの論文は2024年11月7日に発表され、カリフォルニア大学バークレー校の同じ主著者によるもので、セイリー・ヴァインが指揮を執っています。これらは過去の再評価と未来の予測に関するもので、私は両方の論文を組み合わせて説明したいと思います。なぜなら、これらは密接に関連していると考えるからです。
この新しい教師あり微調整のアイデアにより、Googleの囲碁のような長期戦略学習という古典的な強化学習タスクを、言語モデルや視覚言語モデルが自然に扱える、より馴染みのある教師あり微調整アプローチに変換することができます。これは複雑さを大幅に削減する素晴らしい方法です。強化学習から教師あり微調整へと移行することで、計算量が驚くほど削減されます。
では、なぜ現在の対話AIエージェントは不十分なのでしょうか。通常、これらは長期的な目標を考慮せず、即時の応答のみを最適化しています。長期的な戦略の欠如は、次の単語を予測するだけのLLM自体のような、非常に短期的な視点に依存しているためです。
これを変える必要があります。試合の再生を見て、各手を分析し、勝利のために何ができたかを戦略的に考えるコーチを想像してください。事後的再生成は、ほぼ同じことを行います。これにより、AI対話エージェントは以前の会話を振り返り、応答を詳細に検討し、何がより効果的だったかを回顧的に学ぶことができます。
カリフォルニア大学バークレー校は、メンタルヘルスカウンセリングについての研究を行っています。メンタルヘルスカウンセリングでは繊細な対応が必要で、AIがこれを行う場合、長期的な目標に焦点を当てる必要があります。これは人間との短い会話ではなく、最終的に人間がより良い状態になることを目指して何かを構築することが重要です。
また、彼らは寄付の説得という興味深い実用的なアプリケーションも持っています。寄付を求めるメールを受け取った際に、対話型AIがあなたと議論を交わすというものです。
数学的な部分に興味がある方のために説明すると、オフライン強化学習を実行するには、対話データセットを強化学習の訓練例に後処理する必要があります。ベルマン再帰についてはご存じだと思います。
2つ目の論文はさらに興味深いものです。これは教師あり微調整方法論を通じた言語モデルのためのQ学習で、教師あり学習の中に戦略的思考を組み込んでいます。従来のQ学習のような強化学習は、ゲームやロボット工学における視覚言語行動モデルで、エージェントに長期的な戦略を教えるために使用されてきました。しかし、これを言語モデルに適用すると複雑さが増します。
Q学習では、トランスフォーマーに追加のレイヤーや構造的変更、長期的な報酬やQ値(品質値)を予測するための複雑な計算が必要になりますが、私たちはそれを望みません。より高速で、よりスリムで、より緊密に統合された学習が必要です。
トリックはシンプルです。このQ-SFTは、言語モデルの確率が直接Q値を表現するように、Q学習を教師あり微調整問題として再構築することで、巧みに複雑さを回避します。数学的には少し複雑ですが、本質的には、各確率を「良さのスコア」として扱うようモデルに教えます。これは、会話全体を通じて目標を達成するために、各選択肢がどれだけ有効かを推定します。
仕組みとしては、以前の対話から計算されたQ値を重みとする重み付きクロスエントロピー損失関数でモデルを訓練します。これにより、モデルは文脈に合うだけでなく、長期的な目標の達成にも役立つ応答を学習します。そして最も素晴らしいのは、構造的な修正が不要だという点です。
カリフォルニア大学バークレー校は、Q-SFTを使用してカスタマーサポートエージェントが関連性と説得力のバランスを取れるようにする、eコマースサポートのようなシナリオを提供しています。エージェントは、人間の要求に文脈的に関連し、かつ販売成立の可能性を高めるような応答を提案するために、学習した良さのスコアを使用します。
私はGPT-4 Omniと1時間ほど会話を行い、数学的な定式化についての説明を求めました。Q値の重み付きクロスエントロピーの計算や、保守的なQ学習の重みの組み込みについてですが、私が最も興味深いと感じたのは、Q-SFTの理論的分析、収束特性、性能限界、アルゴリズム的特性、そしてその利点についてです。
注意点として、これらの論文を単に入力するだけではすぐには得られない結果があります。特定の部分に焦点を当て、何が何と関連しているのかを議論する必要があります。私の場合、GPT-4 Omniとの議論を通じて、有用な定式化を得ることができました。
これら2つの新しい方法論を組み合わせることで、対話エージェントはQ-SFTによる戦略的計画と、過去の会話から学んだ適応的な回復力の両方を達成します。これにより、AIと人間の間の複雑な目標指向の相互作用の要求に応えることができます。
これにより、新しい訓練方法論による戦略的知性と、過去の何百、あるいは何千もの会話を分析して顧客に特定の商品を購入させる正しい道筋を見つけるような文脈適応性を備えた、より社会的に知的なエージェントに近づくことができます。
最後に、現在のGPT-4 Omniが何を実現できるかを示したいと思います。1時間の議論の後、GPT-4 Omniに従来のQ学習方法論と教師あり微調整を通じたQ学習の比較表を作成するよう依頼しました。正直なところ、その結果に驚きました。これこそが、私がこれを皆さんにお見せしたい理由です。
このシステムで作業し、相互作用を持ち、まさに私たちが話している、より知的なAIシステムとの会話を行うと、次のような結果が得られました。各側面について、従来のQ学習と新しい教師あり微調整を通じたQ学習を比較してみましょう。
まず第一に、モデルのアーキテクチャについて、LLMとVMは従来のQ学習では追加の新しい価値関数が必要でしたが、新しい方法論では構造的な変更は不要です。
第二に、従来のモデルではポリシー確率とQ値に対して異なる出力を維持する必要がありましたが、最適化された方法論ではその必要はありません。
計算の複雑さについては、従来の方法では完全なベルマン更新と目標Q値への回帰のための複雑な計算が必要で、訓練プロセスではポリシー評価とポリシー改善の個別のステージが必要でした。しかし、教師あり微調整を通じたQ学習ではそのような必要はありません。
安定性に関して、従来の方法はブートストラッピング効果とQ値推定の発散により不安定性に悩まされる可能性がありましたが、新しいモデルではそのような問題は発生しません。新モデルでは、事前訓練されたLLMとVMの知識を完全に活用し、破滅的な忘却も発生せず、Q学習を教師あり学習方法論に簡略化することで複雑さも低減されています。
本当に素晴らしい新しいアプローチだと思います。残念ながら、これは2日前に発表されたばかりで、カリフォルニア大学バークレー校からコードはまだ公開されていないようです。近々公開されることを期待しています。もし私のチャンネルを購読していただければ、YouTubeチャンネルのコミュニティタブで新しいコードについてお知らせします。
今日はここまでです。興味深く、新しい洞察が得られたのではないでしょうか。次の動画でまたお会いできることを楽しみにしています。