新しいエージェントR: 誤り訂正による自己学習

2025年1月26日 05:12

8,399 文字

コミュニティの皆さん、こんにちは。AIエージェントをどのように始めればよいのか、エージェントの最新技術は何かという質問が多くありますので、一緒に見ていきましょう。エージェントによるデジタル知識マニフォールドのナビゲーションについてです。
もし初心者であれば、「ええ、EIエージェントのトレンドに興味があります」と言うかもしれませんし、「エージェントの真のAGに興味がある」と言うかもしれません。どちらも正しいのです。8時間前に私が発表したところによると、過去23日間でAIエージェントに関する科学的なプレプリントが520件ありました。つまり、2025年1月末までに1ヶ月で700件以上の科学的出版物がエージェントについて発表されることになります。
さて、今日エージェントを構築したい場合、何を統合することが重要で、どのような構成がハイリスクなのか、あるいはどのような最小構成を選ぶべきなのか、何を統合する必要があるのかと疑問に思うかもしれません。それを見ていきましょう。
今日の本当に知的なEIエージェントを作る課題について、私はルールベースのエージェントではなく、ビジョン言語モデルや大規模言語モデルを中核とするエージェントについて話しています。真に知的なEIエージェントの能力は、複雑で動的なデジタル知識マニフォールドをナビゲートすることにあります。仮想世界やデジタルツインについて知っていることは、まさにこれです。
データマニフォールド上のデータがあり、それらは広大な相互接続されたデータと相互接続空間を表現しています。通常これらは明確に定義されておらず、エージェントが事前にプログラムされ訓練された行動を超えて進む必要があります。ここで、知的なEIエージェントを使用することがなぜそれほど重要なのかがすぐにわかります。
シンプルなアイデアを共有させてください。古典的なエージェント（エージェントZと呼びましょう）とエージェントR（洗練された、または反省的な、お好きな呼び方で）があります。見てみましょう。
私たちの古典的なエージェントはこちらです。アーキテクチャはここにあり、教師あり学習による知識表現は、学習した行動の専門家の軌跡シーケンスから導き出されます。これは事前定義されたパスを模倣しますが、エラー検出の固有のメカニズムが欠けています。そのため、一貫性を検証したり、新しい状況に適応したりするための体系的なアプローチがありません。
Rに移ると、反省的、推論的、または超Rと呼ぶものですが、動的な学習ループがあります。これは通常、自己反省と反復的な改良または自己学習環境を中心に展開されます。今日の中核的な方法論はモンテカルロ探索ですが、もちろん最新のByteDanceと復旦大学の論文のように、モデルガイド型の批評メカニズムを実装することもできます。ここでは、私自身のアクターネットワークが軌跡推論の一貫性関数の検証者として機能します。
ゼロから100まで行けることがわかります。エージェントRを見てみましょう。ここにあるのは、自己批評関数が推論タスクの自己生成による反復的な教師あり微調整と結合されています。これが自己反省的学習プロセスの基礎を形成します。文脈内学習やRAGなどは使用せず、本当に知識をLLMの重み構造、重みテンソルに落とし込む必要があります。したがって、教師あり微調整を適用する必要があります。Pを追加しても問題ありません。しかし、知識をLLMのパラメトリック学習空間に持ち込む必要があるのです。
興味があるかもしれない3つの用語について説明します。まず、モンテカルロ探索によるH&R探索です。古典的なモンテカルロ探索、構築探索木があり、古典的なUCT（Upper Confidence Bound for Trees）アルゴリズムがあります。これがノード選択を導き、探索と活用のバランスを取ります。探索は、完全なアクション空間を網羅的に調べたいので、より探索されていない領域のみを訪れることを意味します。
そして活用では、良いパスがあることがわかっており、報酬モデルを使って作業します。つまり、虹の終わりにある金に導くパスを追跡したいのです。このプロセスは、高報酬（良い）と低報酬の結果の両方を含む多様な推論軌跡のセットを生成します。これが報酬関数を持つ理由です。
2つ目は、モデルガイド型の批評と修正軌跡の構築です。約2分後に詳細を説明しますが、最新技術の本当に素晴らしい点は、モンテカルロ木探索で軌跡の終点まで行かずに、段階的に進むことです。終点にいると、ループに陥る可能性があり、前回の動画で見たように、一部のLLMは自己論証推論ループに陥り、抜け出せなくなり、新しい推論パスを見つけられなくなってロックされてしまいます。
まさにこの行動を避けるために、この新しい批評モデルは非常に美しいのです。終端ノードに到達するまで待つのではなく、推論パスの各ステップを評価するからです。これをどのように行うか、お見せしましょう。
推論プロセスの修正軌跡があれば、それらは形成され、スプライシングによって構築されます。そして、学習エラーからの回復という美しい効果があります。これが2025年の新しいエージェントで探すべきものです。自己学習であり、最後に私が言ったように、エージェントには自己訓練が必要です。
最も単純な方法として、ここで教師あり微調整によって実装される反復的な自己訓練があります。Hugging Faceで無料で利用できる美しいコードがあります。モデルエージェントRは修正軌跡を生成し、その軌跡は教師あり微調整によってアクターネットワークを微調整するために使用されます。これだけです。L関数があり、エージェントが誤った行動から動的に回復する能力があります。
視点を変えてみましょう。もし初心者で「わあ、もう少し単純に戻れますか？」と言うなら、もちろんできます。
AIエージェントの目を通して見てみましょう。私たちの小さな陰陽エージェンシーの限界を見てみましょう。エージェンシーには問題があります。パフォーマンスは急速に頭打ちになり、学習した専門家のデモンストレーションの不完全性によって制約されています。エージェンシーは「私のエラー訂正能力は事実上存在せず、学習した事前定義パスからの逸脱は、しばしば動的データマニフォールド内のサブ最適なループへのカスケード的な失敗と閉じ込めに直接つながります」と述べています。
つまり、あなたが持っている古典的なエージェント、商用エージェント、そして誰もが示すエージェントは、彼らの例に従い、彼らのコミュニティの有料メンバーになれば良いと言っているすべてのエージェントは、これらの制限に苦しんでいるのです。
実際の研究と、エージェントRのような本当に知的なエージェントには利点があります。推論構造のエラーからの回復が早く、エンティティループからの回復も早く、平均修正長も短いのです。これは私たちが望む行動です。
さらに、エージェントRは軌跡の途中で誤った行動を動的に識別し、修正する能力を持っています。ここで最も重要な用語は「軌跡の途中」です。モンテカルロ木のシミュレーションが目標ノード、最終ノード、終端ノードに到達し、完全な木構造に伝播する報酬信号を計算するまで待つのではありません。私たちは軌跡の途中で、ほぼリアルタイムでそれを持っています。これは古典的な行動では完全に欠けているものです。
エージェントをただクローンするだけの場合、この能力があれば、すぐにLLM、つまりエージェントをこの新しいデータで訓練できます。この自己訓練プロセスは、データによってポリシーを継続的に改良するエージェントRの行動にとって非常に重要です。
数学的モデルがあれば、これで第一印象は以上です。複雑なデジタルドメインにおける知的EIエージェントの開発の変化を強調する、エージェンシーとエージェントRの比較分析は少し深すぎるかもしれません。
非常に単純なタスクしかない場合は、このビデオを気にせず、標準的なエージェント実装を使用してください。2つのクラスしかなく、エージェントの分類タスクだけの場合は、このビデオを続ける必要はありません。このビデオは、より複雑な、より深い推論のデジタルドメインとタスクのためのものです。
エージェンシーは美しい行動クローニングですが、初期のブートストラップには有用である一方で、動的なエラー訂正や適応の能力において根本的に限界があることが証明されています。量子エラー訂正と、その自己反省的学習フレームワークを組み込んだ新しい美しいH&Rについて考えてみてください。
これは3つの要素を組み込んでいます：モンテカルロ探索DMの探索、本質的なモデルガイド型批評機能、そして修正軌跡に対する反復的な教師あり微調整による自己学習です。これは美しくないでしょうか？より古典的な用語で言えば、自己モニタリング、エラー検出、そしてエージェントの動的ポリシー修正のための本質的なメカニズムです。
では、ByteDanceと復旦大学からの定義による、ヘッドオールフロー記述をもう少し深く見ていきましょう。モデルガイド型反省軌跡生成と反復的な自己訓練という2つの単純なフェーズがあります。
この時点で「素晴らしい！でも、なぜコードが必要で、コードには適用するための数学的フレームワークが必要なのでしょうか？」と思うかもしれません。コードは数学なので、私たちはどのような数学的フレームワークで作業しているのでしょうか？また、ここで私たちに提示されているのはどのような数学的フレームワークなのでしょうか？
古典的には、最も単純なものである部分観測可能マルコフ決定過程を使用します。これは物理学や数学で数百年の歴史があり、同じものをコンピュータサイエンスにも適用します。これは、エージェントが環境と相互作用するが、環境の完全な状態を直接観測できない状況での意思決定をモデル化するために使用される古典的な数学的フレームワークです。
私たちのエージェントRは、まさにこの部分観測可能マルコフ決定過程の定式化を使用して、インタラクティブな環境での言語エージェントの訓練タスクを枠組みづけています。この表記を見たことがあるかもしれません。初心者の方にも明確にしておきましょう。
チャンネルへようこそ。指示空間、状態空間、アクション空間、観測空間、遷移関数、報酬関数があります。これらすべては確立された数学理論であり、相互に作用して美しい結果を生み出します。画面上でエージェントRの文脈における特定の空間の説明を見ることができます。
アクション空間から始めましょう。すぐに理解できると思います。複数のベンチマークがあります。例えば、WebShopやASWorldなどのテストを実行して、どの程度良いかを把握できます。単純な例として、これを理解している人や、オペレーターとしての目を開いている人は、OpenAIのエージェントが今やコンピュータが提供するアクション空間でアクセスできる機能を考えてみてください。
コンピュータにアップロードしてアクセスを提供すると、OpenAIのエージェント（オペレーターと呼ばれる）がコンピュータの機能にアクセスできるようになります。これが観測空間の説明です。これはエージェントRの文脈における遷移関数であり、もちろん学習反省を伴う報酬関数も必要です。
準備ができたと思います。では、フェーズ1を構築していきましょう。次のステップでは、モンテカルロ木探索の探索フェーズがあります。初期状態から始めて、モンテカルロ木探索がエージェントの完全なアクション空間を探索するために開始されます。木の各ノードに対して、UCT（Upper Confidence Bound for Trees）アルゴリズムが子ノードの展開を導きます。
そして、アクターモデルπθがアクションを生成します。古典的なモンテカルロ木探索では、パラメータKで定義された複数のロールアウトが、新しく追加されたノードから終端状態または事前定義された最大深さまで行われます。ロールアウト中、初期化フェーズを開始した場合、将来のアクションをシミュレートするためのデフォルトのロールアウトポリシーがあります。
これが美しい点です。一連の数に対して完了すると、生成された軌跡は最終報酬に基づいて評価されます。これは私たちが知っている古典的なものです。システム内の良い軌跡と悪い軌跡をβと呼ばれる基本的な特定の閾値で区別できます。これ以上簡単にはできません。
しかし、ここで美しさが出てきます。注意してください。モデルガイド型の批評は素晴らしいですが、何が起こっているか見てください。これは新しいアイデアですが、段階的に進んでいきます。βパラメータを下回る各悪い軌跡に対して、現在のアクターモデルまたはポリシーは検証者として機能するようプロンプトされます。
軌跡の完全な履歴ログがあり、アクターモデルは現在のアクションが良いか、悪いか、中立か、不確かかなどを判断するよう求められます。プラス、マイナス、ゼロなど、好きなものを選べます。そしてフィードバックに基づいて、悪い軌跡内の最初のエラーステップが特定されます。
複雑な推論プロセスがある場合や、ロボットが部屋に入って冷蔵庫を開けるタスクがある場合を考えてみましょう。ロボットは部屋内で方向を定め、冷蔵庫を見つけ、物体を識別し、現在位置から冷蔵庫までのパスを特定し、パス上のすべての障害物を認識し、障害物のない別のパスを見つける必要があります。そして各ステップを評価し、最初の推論草案でエラーを起こしたことに気づいた場合、それが最初のエラーステップとなります。
木構造のこの時点にフラグを立て、「ここで何かが間違い始めた」と言います。壁にぶつかるまで待つのではなく、「ここで何かが起こった、ここから異なる解決策を見つける必要がある」と言うのです。
では、スプライシングの美しいアイデアに移りましょう。修正軌跡をどのように構築するのでしょうか？悪い軌跡と良い軌跡があることを覚えておいてください。識別された最初のエラーステップがTである各悪い軌跡に対して、木構造内でステップTまで同じ親ノードを共有する対応する良い軌跡も選択されます。
スプライシングの方法は簡単です。B軌跡の初期セグメント、つまりステップ1からTまでが選択されます。次に、このエラーに関する反省を示すテキストプロンプトである修正信号がステップT+1に挿入されます。そして、ステップT+1から終端点までの良い軌跡の後続セグメントがスプライスされます。
このように、修正軌跡を美しく構築しました。このスプライスは、私たちが探している訓練例を作成します。なぜなら、エラー訂正を明示的に示すからです。したがって、LLMを誤ったパスから正しいパスへと導きます。LLMは物事が間違い始める時を明確に識別し、ループに陥ることはありません。
ロボットの例で考えると、ロボットは壁にぶつかりません。終端まで待って「これは壁だ、痛い」という報酬関数を得るのではなく、修正軌跡構築方法によってそれをすぐに得られます。
これで軌跡ができたので、教師あり微調整の美しさが始まります。アクターモデルは特定の損失関数を使用して微調整されます。この損失関数には3つの項があります。もちろん、良い軌跡損失関数があり、これは私たちが探している望ましい最適な行動を強化するために、良い軌跡の対数尤度を最大化します。
次に、修正軌跡損失があり、これは修正軌跡の対数尤度を最大化して、特にステップT+1以降の修正信号と後続の訂正されたアクションの予測に焦点を当てます。これがエラー回復フェーズの学習のための重要な項です。
例えば、GoogleのLLMが推論ループに陥り、抜け出せなくなったのを見ましたが、これは損失関数の項で、LLMをこの損失ループから脱出させるものです。そして、特定のドメインの一般化を改善するための一般データセット損失はオプションです。
信じられないかもしれませんが、これは反復的なプロセスです。微調整後、新しく訓練されたアクターモデルができ、フェーズ1から再び始めます。フェーズ1の軌跡生成と修正データ構築、フェーズ2の教師あり微調整の反復サイクルが、事前定義された回数繰り返されます。
この自己学習は、新しいAIエージェントに推奨したいものです。各反復で、エージェントは段階的に改善されたポリシーを使用して、新しい、潜在的により有益な修正軌跡を生成するからです。どこでアクションが失敗したかを知っているため、より良いアクションを見つけるか、置き換える必要があります。
これらすべてが、エラー訂正と全体的なタスクパフォーマンスの継続的な自己改善につながります。このエージェントの訓練にはより多くの投資が必要ですが、実世界のアプリケーションは本当に素晴らしいものです。なぜなら、LLMやエージェントが推論ループに陥り、そこから回復できなくなることをほぼ確実に防ぐことができるからです。
用語について、いくつかの質問を見つけました。残念ながら、同一のオブジェクトに対して多くの用語が使用されています。異なるジャンルの異なる技術用語に混乱しないでください。同じオブジェクトを参照している可能性が高いからです。
アクターモデルや強化学習におけるアクター批評方法論について話す場合を見てみましょう。この定義を読むと、これはまさに強化学習におけるポリシーの定義であることに気付きます。なぜなら、ポリシーは状態、つまりシステムの履歴の観測から、アクションまたは特定のアクション上の確率分布へのマッピングだからです。
したがって、アクターモデルはシステムのポリシーと本当に深く関連しています。ポリシーはアクション選択戦略であることがわかります。ポリシーモデルまたはアクターモデル（心配しないでください、これは同じです）は、環境との相互作用におけるエージェントの戦略を具現化します。これは単に、エージェントがどのように振る舞い、決定を下すかを定義します。これはロボティクスにも推論にも当てはまります。
エージェントRの文献では、ポリシーではなくアクターモデルという技術用語を見つけますが、アクターモデルは数学的形式でπθと表記されます。これは、元の文献ではθによってパラメータ化されたポリシーであり、エージェントのポリシーを定義します。
これらすべての解決策を示しましょう。ポリシーモデル＝アクターモデル＝アクション生成メカニズム＝エージェント戦略＝数学的表記πθです。時々人々はこれらのことを参照し、時々人々は本当に確信が持てず、時々完全な技術用語に混乱があることがわかります。
しかし、理論の主要なアイデア、新しい方法論を理解すれば、ポリシーモデルとアクターモデルとエージェント戦略とπが同じものであることをすぐに理解できます。
エージェントRについてすべてお話ししたので、この素晴らしい論文をお見せする時が来ました。2025年1月20日の論文「エージェントR：反復的な自己訓練による言語モデルエージェントの反省訓練」復旦大学とByteDance、おっとByteDance本社によるものです。コードはGitHubにあります。これがリンクです。探索して楽しんでください。
そして今が論文を読むのに完璧な時期です。異なる用語とこの形式で公式を構築した理由をすぐに理解できるでしょう。このビデオが主要なアイデアの洞察を提供したことを願っています。
もちろん、パフォーマンスデータ、ベンチマークデータをお見せする必要があります。お話ししたように、WebShopやサイバーワールドやTextCraftなど、異なるLLM、異なるエージェントがあり、もちろん最後の行にエージェントRがあります。予想通り、選択されたベンチマークで全体的に最高のパフォーマンスを示しています。
EIエージェントについて学ぶことに興味があり、最小構成に何を含めるべきかを知りたい場合、自己反省的な自己学習方法論を推奨します。そうすれば、エージェントは適応し、より多くの挑戦的なタスクとより複雑な推論データを与えられると継続的に学習を続けるからです。
このビデオを楽しんでいただけたなら、デジタル知識マニフォールドをナビゲートするためのエージェントの最小構成について、そして次のビデオに興味があれば、ぜひ購読してください。

新しいエージェントR: 誤り訂正による自己学習

いいなと思ったら応援しよう！