新しい"自律的思考の連鎖": o1を超えた次世代AI

2025年1月11日 06:30

8,430 文字

コミュニティの皆さん、今日は推論について話し、o1モデルを超えていきたいと思います。今日は遺伝的テスト時計算について、検索強化推論モデルを検証します。これは皆さんが知っているものより優れており、小規模言語モデルでも活用できるかもしれません。なぜかというと、open1のような私たちのモデルには知識の不足があり、頻繁な不確実性と潜在的な問題があるからです。誰がこれを主張し、どのように修正できるのか、お見せしていきます。
まず、ご存知の通り、私たちには3、4つのモデルがあります。deep seek R1、そしてopeni o1があり、ここではテスト時計算での推論プロセスは見えません。そして美しいQ van 32bがあり、ここではテスト時計算の各推論ステップと思考過程が正確に見えます。テスト時トレーニングとテスト時計算についてもっと知りたい場合は、このビデオがお勧めです。
しかし、今私たちが持っているものに焦点を当てましょう。LLMがあり、事前学習済みLLMがあり、その後に教師あり微調整があり、DPOアラインメント、強化学習があります。これが私たちのLLMです。そして今や私たちはエージェントシステムを持っているので、LLMを核としたエージェントを構築し、関数呼び出しによってAIは特定の知識を持つベクトルストアに接続することを決定できます。
これは特定の数学的空間でベクトル埋め込み表現として非常に高速な検索のためにここにエンコードされています。あるいは、プライベートデータ、つまりプライベートな財務個人データを持つデータベースがあり、これらをツールと呼びます。または必要に応じてコンピュータシミュレーションもあります。
これが私たちが持っている典型的なシステムです。推論があり、人間の質問が入力され、ここで全てが起こり、その後答えが返ってきます。これがベクトルストアを持つ場合、検索拡張生成と呼ばれる古典的なRAGシステムです。
この特定のアーキテクチャが担う仕事は何でしょうか。チャットボットサービス部門、ヘルプデスク、銀行のオフィスなど、条件は何でしょうか。とても単純な人間の質問に1秒以内に答えるべきです。「このアイテムを返品したいのですが」というような質問に。したがって、単純なコサイン類似度埋め込みを持つベクトルストアは、昔は良いアイデアでした。
次のステップは、特定の議論パターンでトレーニングすることでした。これは思考の連鎖と呼ばれました。LLMのトレーニングで単純な推論が行われ、そのためLLMはより複雑な質問に対して単純な推論タスクを実行できましたが、まだテスト時計算には至っていませんでした。
しかし今、文献に移りましょう。多くの人が、ビデオを準備する際に何を読んでいるのか、このトピックに関する最も重要な論文は何かと尋ねてきました。ここでいくつかの論文を紹介します。2023年10月の良い古い論文、あるいは2024年10月の「RAGはどれだけ大規模言語モデルの推論を助けることができるか」がお勧めです。「模倣、探索、自己改善：スローシンクの再現レポート」も。フェーズ2の推論システムについてすぐに話します。
もちろん、o1複製の旅パート1とパート2も忘れないでください。最初のものは2024年10月で、そして2024年12月30日には「D1最適化深層推論翻訳WEA長い思考の連鎖」が出ています。今日の論文の準備ができていることがわかります。
今日の論文については後ほどお見せします。今は推論実行時のテスト時計算について話しています。これは既に起こった良いことですが、今やQ 32bを特に含む3つのマイルQで、質問を受け取り、推論実行中にリアルタイムで思考の連鎖による推論プロセスを持っています。
実際のクエリ、つまり推論チェーンに必要なタスク固有のドメイン知識を持つようになり、状況は変化しました。これには数秒から2分かかることがあります。このシステムの仕事は今や高度な推論であり、条件は複雑なクエリに2〜5分程度で答えることです。03については5分以上かかるという報告も見ています。
例えば、「この分子の化学的性質を教えてください」というタスクがあった場合、1秒以内に答える必要はありません。むしろ、持っているAIの知識を全て使って、30分かかるかもしれませんし1時間かかるかもしれませんが、正しい答えを出し、なぜそれが正しい答えなのかを説明してほしいのです。
これは車の中で数ミリ秒以内に行動しなければならない場合や、オンラインヘルプデスクで1秒以内に答えなければならない時間重視のシステムではありません。これは研究においてより複雑な高度な推論であり、数分の時間があります。この答えは今や特定の推論パターンを持つ答えに基づいて構築されていますが、LLMは思考の連鎖の指示データセットだけでなく、他のことも学習しています。
この特定の推論実行を最適化したい場合、特定の推論パターンが必要です。トレーニングプロセス自体に追加のデータがありますが、これについては後ほど詳しく説明します。高度な推論に入ると興味深くなってきます。これは例えばo01が現在行っていることです。
o1では、もし動画をご覧になったことがあれば、このプロセスはユーザーである私には隠されています。なぜならopeniは推論と因果的な議論のパスをモデルに見せたくないからです。私が何か間違いを発見するかもしれないからです。完全に不透明なブラックボックスモデルです。
そしてQvanによるqwqが登場し、美しいオープンソースの32bモデルで、オープンで全ての推論ステップを正確に示してくれました。私のトピックや質問に対して、初めて2分かかっても問題なく、全ての推論ステップと因果的な議論、どのようなデータを統合したのか、どのように結論に至ったのかを示してくれました。これは本当に興味深いものでした。
そして今日、GoogleのVertex Gemini 2.0思考実験でこれを無料で体験できます。これには本質的な問題があり、既にお気づきかと思います。このLLMの事前学習は2年、あるいは3年前に行われました。openeyシステムは2023年に知識のカットオフがあるので、これは本当に古いコンテンツデータです。
古典的な商用ベクトルストアでは、支払う金額や特別な条件に応じて異なりますが、一般的に言えば、毎年程度、埋め込みの完全な意味的な再配置を行います。プロバイダーによって、支払う金額やその他の要因によって異なりますが、平均的にはかなり古いデータが保存されています。
LLMを特定の思考の連鎖パターンのためにトレーニングする必要があると言いましたが、データや事実、知識が既に数年前のものであることを考えると、思考の連鎖の例も相当古いものだということがわかります。これらが全て合わさって、テスト時計算におけるLLMの推論性能にかなりの影響を与えています。
なぜでしょうか。こう言わせてください。私たちは古いボックスの中で考えています。これは2年前のもの、これは1年前のもの、これも1年前のものです。そして私はあなたが何を言おうとしているかわかります。「新しいデータを見つけることができる」とか「特定の新しいアイデアで強化学習ができる」と言うでしょう。しかし残念ながら、それらは根本的な推論エンジンを上書きしません。これについては後ほど詳しく説明させてください。
ここで単純な視覚化をお見せしたいと思います。この思考の連鎖のステップは多段階の手順があり、古いボックスモデルで作業していると仮定しましょう。qwq 32bでの推論パターンを見て発見した別の効果についてお見せします。
この思考の連鎖のステップには、4つの次の可能性があるとしましょう。抽象的なもので、何であるかは気にしないでください。そしてこれに従って、次のステップでは別の2つ、3つ、4つ、10の可能性があり、私たちの思考の連鎖の文書化で議論する方法があります。
しかし、いくつかのオプションが単純に無視され、停止されているのを見ました。「なぜこの推論のパスをさらに探求しなかったのか」「なぜここで止まったのか」と思うかもしれません。理由は単純です。分析を見てみると、モンテカルロ研究をしているわけではありませんが、これは通常の思考の連鎖の内部計画が起こっています。
システムが知らない用語、システムが十分なデータを持っていない用語に遭遇しました。何が起こるかというと、システムはこの特定のパス構造でさらに進むことができません。これを説明する方法がさらにないのです。システムにはデータがありません。なぜなら、LLMにエンコードされているデータ、ベクトルストアに埋め込まれているデータ、そしてSQLコールまたはNoSQL（何でも使っているデータベース、データレイクを正確に言えば）でデータベースに対して持っているデータだけしかないからです。
リアルタイムで議論を見ていると、多くの停止サインがあることに気づきます。なぜなら、LLMには知識がないため、先に進むことができないからです。もしかしたら正しい解決策があるかもしれませんが、それらはまだ全てのこれらの知識体系にエンコードされていません。
これは私たちを古い知識のボックスの中に閉じ込めるだけでなく、議論のパターン、推論のパターン、知識、データにおいて制限を設けています。そしてより複雑さを積み上げていきたい場合にも制限があります。
LLMがこのパスに従いたいが、それについてのデータがないという状況に遭遇した場合の解決策は何でしょうか。1年待つことはできません。論文の著者たちは、単純だが美しいアイデアを思いつきました。彼らは「エージェントがあり、関数呼び出しがあるのだから、エージェントに必要な情報を単純にGoogleで検索させよう」と言いました。
私の知識部分にない議論は、もはや有効ではありません。なぜならエージェントは「ただGoogleで検索します」と言うからです。より正確に言えば、ウェブ検索APIを開始します。それがGoogle、DuckDuckGo、何でもいいのですが、必要な知識、最新の知識を取得し、インターネット全体の完全な知識を手に入れることができます。
確実にするために、私は友人が商用ベクトルストアに月額2,400ドルを支払っていることを知っています。インターネット全体の知識をベクトルストアにエンコードすることはできません。ビル・ゲイツならできるかもしれませんが、普通の人にとってはGoogleそのものになってしまうでしょう。
ウェブ上で必要なものが何であれ、準備することはできません。その時にウェブ検索でGoogleで検索することが、2025年1月現在の最新のソリューションです。こんにちは、Google、あなたは戻ってきました。CSEAについて考えてみてください。あなたのLLMはCSEAについて、最新のコード実装について、最新のソリューションを見つけるシーケンスについて、何を知っているでしょうか。
知識体系に統合されておらず、トレーニングされていない古い知識を持っている場合、それは知識ではなく、単なるデータであることをすぐに理解できます。テスト時計算について、既に1、2ヶ月前に2つのビデオをお見せしました。テスト時トレーニングでのノエル方針報酬モデルと、モンテカルロ研究を用いたテスト時計算です。これは複雑なビデオですが、今日はもっとずっと単純なソリューションがあります。
2つ目のビデオはMITからの新しいテスト時最適化されたAI推論方法論でした。ソリューションはありますが、スケール推論ベースの推論の実装はかなり複雑です。MITの学生なら「はい、できます」と言えるでしょう、おめでとうございます。しかし、AIをコーディングする普通のおばあちゃんにとっては、そんなに簡単ではないかもしれません。
また、03推論時間の思考の連鎖推論について話したこのビデオで、03ミニにとってどれほど関連があるかを覚えているでしょう。Googleが現在、テスト時計算、テスト時または推論時間推論をより良くするために、教師あり微調整と口頭の合成フィードバックメカニズムを最適化していることがわかりました。
このような推論時間推論を行いたい場合、事前トレーニングではなく、微調整と強化学習のアラインメントが必要で、それは03ミニで見られるような推論時間推論を最適化するように特別に設計されています。モデル全体にわたってこの推論時間推論を行いたい場合の依存関係は素晴らしいものです。
そして今、前回のビデオの文脈内学習を特定の方法で再び参照していると言うかもしれません。その通りです。なぜなら、ここで文脈内学習をしていたからです。クエリがあり、追加情報を得る必要がありました。文脈内学習では、グラフ上で行動するエージェント、例えばグラフ多様体上で行動したり、ナレッジグラフを利用するエージェントがあると言いました。関連情報を取得する複数の方法をお見せしました。
これについて考えると、ここでも同じことができます。なぜなら、まだ何が足りないか気づきましたか？そう、知識グラフに相当するものです。考えてみてください。最初の思考の連鎖のステップがあり、追加の知識が必要だとわかった場合、簡単です。最初のステップで、エージェントに「もっと知識が必要だ」と伝え、ウェブAPIに接続してインターネットに接続し、この特定の知識を検索します。
しかし、それが単純なデータではなく、より複雑な知識である場合、エージェントで複数の要素を取得し、別のLLMを持つことになります。このLLMは、私のクエリではなく、私のクエリと現在の思考の連鎖のステップ、つまり現在の議論の連鎖がこの特定の時点でどこにあるのか、そして完全な取得情報から、この思考の連鎖のステップに答えることができる、分析的に分析できる特定の情報は何かを入力として持ちます。
インターネット上で利用可能な全ての情報を用いて、左側にエンコードされた知識だけでなく。ここでLLMは、完全なクエリに対する解決策ではなく、複数の思考の連鎖多様体での最初の思考の連鎖のステップに対する解決策を提供する情報の断片を選択します。
これで最新の、新しい情報、たった1秒前にインターネットで更新された情報を持ち、私たちの知識ベース、私たちの推論に取り入れることができます。これは素晴らしいですね。そして私が何を言おうとしているかわかります。なぜなら、改善されたテスト時計算推論のために思考の連鎖から思考の森に進むことができるというビデオをすでに数日前に作っているからです。私は時代の先を行っているだけなのです。
誰がこれらの特定のアクションをいつ取るのかを決めるのかと疑問に思うかもしれません。それは再びLLM、私のエージェントの核心部分自体です。このLLMは新しい知識が必要な時期を決定します。それがパラメトリックな知識、つまり私たちのLLMの固有の知識と、ベクトルストアに埋め込まれたり、データベースにエンコードされたりした拡張知識が特定の閾値を下回る場合、例えば最も簡単な場合、ウェブ検索APIを起動し、単純にGoogleで検索して研究を見つけ、最初の10または20の結果をエージェントとして取り戻します。
これが01で遭遇する非効率性をさらに最適化する方法です。美しい論文を見たい場合、これは私にとって今日、2025年1月9日の録画ですが、「search1 atic search enhanced large reasoning models」と呼ばれ、01のパフォーマンスに焦点を当てています。
エージェンティック検索ワークフローについて話しましたが、これを今テスト時計算の推論プロセスに統合します。大規模推論モデルが不確実な知識点や閾値に遭遇したときの外部知識の動的な検索があります。そして彼らが理由付けと文書モジュールの抽出と呼ぶ新しいモジュールがあります。
示したように、取得した情報を分析する別のエージェントを使用し、ノイズを最小限に抑え、一貫した推論の流れを保持しながら、推論チェーンの特定の位置に情報を戻して注入します。思考の森を使えば、単一の思考の連鎖ではなく、多次元でこれを持つことができると考えると、これが計算集約的になる可能性があることをすぐに理解できます。
しかし、新しい薬を開発するようなタスクの場合、これが5分、10分、1時間、10時間かかっても問題ありません。ただ仕事を終わらせるべきなのです。私はこの理由付けと文書モジュールでミニ文脈内学習が起こっていると呼んでいますが、何と呼びたいかはあなた次第です。
そして文献で見たように、プロジェクトへのリンク、プロジェクトベース、GitHubリポジトリがあります。ここにoのリンクがあり、2025年1月9日と言いました。
数学部門の友人たちが「最新のAI研究論文を数式を一つも使わずに説明した、私たちのことを気にかけていないのか、忘れてしまったのか」と言うのを知っています。いいえ、もちろんそうではありません。初めてこの論文を読んだとき、もちろんこれに遭遇します。数式で美しく定式化された推論メカニズムがあり、推論プロセスがあります。検索クエリプロセスを数式で持つことができ、もちろん洗練された知識など、これは美しいです。
数学にいて、数学だけで読むことを好む場合、はい、全てがあります。これが論文が提示する方法です。結果に移りましょう。ベンチマークデータがここにあり、全てがあり、そして最後の行に最終的に彼らがoursと呼ぶこの新しい方法論があります。
これを初めて見て、例えばMatベンチマークを見た場合、通常の古風なRAG Q qwqと比較するとどうでしょうか。あるいは既にエージェンティックシステムであるRAGエージェントqwqで85.0、新しいものは85.3、これは56.7、これも56.7、そしてこれだけで、はい、1.4パーセントポイントの改善があります、これだけです。
新しい知識についてトレーニングされていない場合、新しい知識は訓練された知識ほど価値がないと主張するかもしれません。これについては後ほど詳しく説明します。そして今、数日前に2段階事前トレーニングについてのこのビデオを持っている理由がわかります。NvidiaとStanfordが2段階事前トレーニングで新しいLLMのスケーラビリティと新しい精度を解き放つ方法について教えてくれています。
どこを見ても、教師あり微調整でも、強化学習でもないことがわかります。はい、新しいデータ、新しい情報を持つことができ、新しい知識を見ることができますが、パフォーマンスデータを見れば、まだ何が足りないかがわかります。しかし、これについては後のビデオでお話しします。
はい、「待って」と言うかもしれません。昨日のMicrosoftの最新の論文「Allstar Math：小規模LLMは自己進化する深い思考で数学的推論をマスターできる」もあります。自己進化する小規模言語モデルを読むと、何を言おうとしているかわかりますね。このビデオを準備したばかりですが、ここで何が問題かもしれないかのヒントを与えましょう。
ベンチマークデータを見れば、すぐにわかるでしょう。しかし、私が現在焦点を当てているのは、バイオテクノロジー、薬理学について考えると、実際のアプリケーションで作業していて、医学がAIの実際のアプリケーションだとし、タンパク質設計、タンパク質エンジニアリングに焦点を当てているとすると、このLLMがまったく機能していないことがすぐにわかります。
AIシステムのこの自己回帰アーキテクチャは失敗するでしょう。これは実際にはそうでもありません。なぜなら、いくつかの外れ値があるからです。明日、私が現在どこにいて、何を実行していて、タンパク質設計のために何を読んでいるかをお見せする必要があるかもしれません。これは材料科学から医学、バイオテクノロジー、生物薬理学、想像できる全てのものに及びます。
しかし、今日はこれで終わりです。今日は、私たちの小さなエージェンティックテスト時検索強化推論モデルとその現在の限界について話しました。今や本当に最新の情報を得ました。これは今日発表された論文です。これで、AIが現在の大規模推論モデルでどこにいるのかが全てわかりました。
興味があり、次の数日で何が起こるのか知りたい場合は、ぜひ購読してください。次のビデオでお会いしましょう。

新しい"自律的思考の連鎖": o1を超えた次世代AI

いいなと思ったら応援しよう！