
中国人研究者がOpenAIのAGIの秘密を解明
7,101 文字
OpenAIは主要なAI企業で、彼らの最近のモデルo1は、私たちがアクセスできる中で最も進んだAIです。このAIモデルは非常に機密に包まれており、生成中の考えを尋ねるとそのような質問を二度としないよう警告されます。しつこく質問を続けるとOpenAIのサービスからBANされる可能性すらあります。モデルは、そのような質問を再びしないよう警告する回答を返し、頻繁に質問すると実際にOpenAIのサービスから追放される可能性があります。
このような機密性の理由は、これがAGIへの重要なステップであり、多くの人がOpenAIが最初にそれを達成する企業になるだろうと考えているためです。多くの人々がこのシステムがどのように機能するのか正確に理解しようとしてきました。OpenAIはいくつかの論文を公開していますが、内部で何が起きているのかを本当に理解させるものではありませんでした。
しかし、最近中国の研究者グループが研究論文を発表し、彼らがコードを解読したのではないかと考えられています。o1がどのように機能するのかを発見し、同様のものを構築するためのロードマップを公開したのです。論文のタイトルは「検索と学習のスケーリング:強化学習の観点からのo1の再現へのロードマップ」です。
この論文は全てを変える可能性があります。なぜなら、もしこれが本当なら、ゲームのルールが均等化され、他の多くの企業がOpenAIに匹敵するAIモデルを生み出すのは時間の問題となるからです。
私はこれを4つのパートに分けて説明しますが、まずこのAIの基本的な仕組みを理解することから始めましょう。最初に持っているのは、もちろん強化学習とAIです。ゲームの類推で考えてみましょう。犬に芸を教えることを想像してください。犬が正しいことをした時にお菓子(報酬)を与えると、より多くのお菓子を得るためにその行動を繰り返すことを学習します。これが本質的にAIの強化学習です。犬はプログラムで、お菓子は数値的な報酬、そして芸はゲームに勝つことからコードを書くことまで何でもあり得ます。
なぜo1シリーズにとって強化学習が重要なのでしょうか?それは、OpenAIが強化学習をモデルを非常に賢くする鍵だと考えているからです。これが本質的にChatGPTが試行錯誤を通じて推論し、複雑な問題を解決する方法なのです。
論文によると、4つの柱があります。ここでo1の仕組みの概要が示されています。モデルの出発点となるポリシー初期化があります。これは事前学習やファインチューニングを使用してモデルの初期推論能力を確立します。これが本質的にモデルの基盤です。次に、先ほど話した報酬設計があります。それから推論時に起こる検索があり、モデルが異なる可能性を探索します。そして学習があり、検索プロセス中に生成されたデータを分析してモデルを改善します。その後、強化学習などの様々な技術を使用して、時間とともにモデルを改善していきます。
中心的な考えは本質的に強化学習です。中心的なメカニズムがこれらのコンポーネントを結びつけています。ポリシーであるモデルが環境と相互作用し、データが検索結果から学習プロセスへと流れ、改善されたポリシーが検索に再統合され、継続的な改善のループを作り出します。図は、検索がデータを学習のために生成し、学習がポリシーを更新するという、プロセスの循環的な性質を強調しています。
これがどのように機能するのかを本当に理解するためには、ポリシーを理解する必要があります。これが基礎であり、モデルの基盤です。チェスのような複雑なゲームを誰かに教えるところを想像してください。最初の日からグランドマスターと対戦させるようなことはしないでしょう。まず基本を教えます。駒の動かし方、基本的な戦略、そしておそらくいくつかの一般的なオープニングです。これが本質的にAIのポリシー初期化です。
ChatGPTのような強力なAIの文脈では、ポリシー初期化は、本当に難しい問題を解こうとする前に、AIに強固な推論の基盤を与えることです。これは、強化学習を通じて構築できる基本的なスキルと知識のセットを装備することです。
論文は、o1の場合、この早期スタートは主に2つの段階で行われる可能性を示唆しています。ここで見える事前学習です。これは大規模なテキストデータでAIを訓練する場所です。AIにインターネット全体、あるいは少なくともその大部分を読ませることを想像してください。これにより、AIは言語がどのように機能するか、単語がどのように関連しているか、そして世界に関する膨大な一般知識を学習します。小説を書こうとする前に文法、語彙、基本的な事実を学ぶようなものです。また、基本的な推論能力も獲得します。
このデータでの訓練の後、重要な部分が来ます。指示と自己に近い推論でのファインチューニングです。これは、AIに推論と問題解決の方法についてより具体的な教訓を与える場所です。ここで見える2つの重要な技術が含まれます。プロンプトエンジニアリングと教師あり微調整です。プロンプトエンジニアリングは、AIの行動を導くために注意深く作られた指示や例を与えることです。
論文は、問題分析(問題が正しく理解されているかを確認するために問題を言い換える)、タスクの分解(複雑な問題をより小さく扱いやすいステップに分割する)、文字通り「まず段階的に考えよう」と言うといった行動について言及しています。そしてもちろん、ここでSFTと略されている教師あり微調整では、人間が問題を解決する例でAIを訓練し、本質的に正しい思考と推論の方法を示します。これには、専門家が段階的に思考プロセスを説明する例を示すことも含まれます。
要約すると、ポリシー初期化は、言語、知識、基本的な推論スキルの強固な基盤をAIに与えることです。これは、後の学習と問題解決の段階での成功に向けて準備をします。o1のこの段階は、AIが体系的に考え、解決空間を効率的に探索できるように、人間のような推論行動を開発する上で重要です。
次に、非常に興味深いものに到達します。報酬設計です。画面に表示されているこの画像は、強化学習で使用される2種類の報酬システムを示しています。結果報酬モデリング(ORM)とプロセス報酬モデリング(PRM)です。説明は実際にはかなり単純です。
結果報酬モデリングは、最終結果のみに基づいて解決策を評価します。最終的な答えが間違っていれば、解決策全体が間違いとしてマークされます。この例では、実際にいくつかのステップは正しいのですが、最終結果が間違っているため、全体が単に間違いとしてマークされます。
ここで、はるかに優れているプロセス報酬モデリングが登場します。プロセス報酬モデリングでは、解決策の各ステップが個別に評価されます。正しいステップには報酬が与えられ、間違ったステップにはペナルティが課されます。これは、訓練中の改善を導くより詳細なフィードバックを提供します。ステップ1、2、3が正しいため報酬を受け取り、ステップ4、5は間違っているためエラーとしてマークされているのが分かります。
この方法は、解決策全体を拒否するのではなく、プロセス内の正確なエラーを特定するため、はるかに優れています。この図は、複数のステップによる推論を含むタスクにおけるプロセス報酬の重要性を強調しています。これにより、反復的な改善とより良い学習結果が可能になります。これがo1が本質的に使用していると考えられているものです。
ここで本当に興味深い部分に到達しますが、その前に私の現在の新しいプロジェクトについて手短にお話ししたいと思います。ご存知の通り、このチャンネルではAIに関連するすべての出来事と新機能を分析しています。私の目標は、この素晴らしい技術をできるだけ多くの人々に知ってもらい、何よりもAIに関する意識を高めることです。
私の周りの人々と話すとき、人々は本当にAIが何であるかを理解していません。社会に与える影響、巨大な影響を理解していません。すでに言いましたが、このチャンネルで商品プレイスメントはしていません。できるだけ本物を保ちたいと思っています。だからこそ、私は研修コースを作りました。
生活のあらゆる分野でAIを使用する方法を学びたい場合、実際にこのビデオを見ているなら、すでにAI、特にChatGPTを使用している可能性が非常に高いと思います。もしあなたの思考をさらに深め、すべてのAIツールの使い方と、生活のあらゆる分野にどのように正確に適用するかを学びたい場合は、ビデオの下にピン留めされたコメントにリンクを残しておきますので、興味がある方はぜひご覧ください。
また、Vision AI コミュニティにもアクセスできることをお伝えしたいと思います。プロジェクトを開始してまだ間もないですが、すでに100人以上の方が研修を受講されています。素晴らしいことに、皆さんは多様な分野から来ており、学んだツールを特定の分野にどのように適用するかについて、定期的に皆さんと議論するのが大好きです。本当に興味深いですね。
申し訳ありません、少し中断してしまいました。これ以上時間を取らずに、ビデオの説明やコメントにすべてのリンクがあることをお伝えしておきます。というのも、ここで私たちは多くの人が超知能につながる可能性のある要素として称賛している検索について話すからです。実際に最近、それを主張するツイートを見ました。画面に追加するようにします。
これを分解すると、本質的にはAIが考えているところです。o1のような強力なAIは、考え、異なる可能性を探索し、最良の解決策を見つけるための時間が必要です。この思考プロセスが、論文が検索と呼ぶものです。
さらに考えを深めると、彼らは「推論時により多く考えることで性能を向上させる方法がある」と言います。これは、単一の回答を生成するのではなく、最良のものを選ぶ前に複数の可能な解決策を探索することを意味します。
例えば、エッセイを書くことを考えてみましょう。最初の下書きをそのまま提出することはないでしょう?アイデアを考え、複数のバージョンを書き、最終製品に満足するまで修正と編集を行います。これも本質的に検索の一形態です。
検索の分野には2つの主要な戦略があり、論文はこれらの戦略をo1がこの思考プロセスに使用している可能性があると強調しています。まず、木探索があります。それぞれの枝がAIが取り得る異なる選択や行動を表す分岐する木を想像してください。木探索は、それぞれの道がどこに導くかを見るために、木の異なる経路を探索することです。
例えば、チェスの対局では、AIは自分が取り得るすべての手、相手の可能な応手を考慮し、この可能性の木を構築します。その後、特定の基準を使用してどの枝をさらに探索し、どの枝を剪定するかを決定し、最も有望な経路に集中します。これは、木の成長を適切な方向に導くために選択的に枝を剪定する庭師のようなものです。
単純な例は、n-best サンプリングで、モデルはn個の可能な解決策を生成し、特定の基準に基づいて最良のものを選択します。
右下には、逐次改訂があります。これは、先ほど話したエッセイを書くようなものです。AIは解決策の最初の試みから始め、段階的に改良を加え、改善を重ねていきます。例えば、AIは数学の問題に対する初期回答を生成し、その作業を確認し、エラーを特定し、それに応じて解決策を修正することができます。これはエッセイを見直し、エラーを見つけ、読み直すごとに改善するようなものです。
また、木探索でどの経路を探索するか、あるいは逐次改訂でどのように解決策を修正するかをAIがどのように決定するかも考慮する必要があります。論文は2種類のガイダンスについて言及しています。
内部ガイダンスがあり、ここでAIは検索を導くために内部の知識と計算を使用します。例えば、モデルの不確実性があります。モデルは解決策の特定の部分に対する確信度を推定することができます。確信度が低い領域に焦点を当て、代替案を探索したり修正を加えたりすることができます。これは、本当にエラーを犯したかどうか確信が持てないときに作業を再確認するようなものです。
もう1つの例は自己評価で、AIは自身の作業を評価し、潜在的なエラーや改善が必要な領域を特定するように訓練することができます。これは、あなたの文章を見直し、変更を提案する内部校正者を持つようなものです。
次に、検索を導くために外部世界からのフィードバックを得る外部ガイダンスがあります。環境フィードバックの例では、場合によってはAIが実際の環境やシミュレーション環境と相互作用し、その行動に対するフィードバックを得ることができます。例えば、迷路を移動することを学習するロボットは、目標に近づいているか遠ざかっているかを示すフィードバックを受け取ることができます。
もう1つの例は、先ほど話した報酬モデルの使用です。報酬モデルは異なる解決策や行動の質に関するフィードバックを提供し、AIをより良い結果へと導くことができます。これは、あなたの作業を採点し、何が上手くできて何を改善する必要があるかを教えてくれる教師のようなものです。
本質的に、検索要素とo1が異なる可能性を探索し解決策を改良するプロセスは、内部知識と外部フィードバックの両方によって導かれています。これが、複雑な推論タスクでAIがこれほど効果的である理由の重要な部分です。
したがって、検索はAIが問題について考える方法ですが、時間とともに問題解決をどのように本当に改善するのでしょうか?ここで学習が登場します。論文は、o1が強化学習と呼ばれる強力な技術を使用して性能を改善することを示唆しています。
検索が訓練データを生成します。検索が複数の可能な解決策を生成することについて話したことを思い出してください。これらの解決策と内部または外部ガイダンスからのフィードバックが、AIにとって貴重な訓練データとなります。これは試験のために練習する学生のようなものです。異なる練習問題を解こうとし、回答に対するフィードバックを得て、エラーから学ぶことができます。成功した試みも失敗した試みも、学習と改善に役立つ貴重な情報を提供します。
学習には2つの主要な方法があり、論文は検索中に生成されたデータから学習するためにo1が使用する可能性のある2つの主要な方法に焦点を当てています。
最初の方法はPPOなどのポリシー勾配法です。これらの方法は少し複雑ですが、基本的な考え方は、AIが受け取る報酬に基づいて内部ポリシー(行動を選択する戦略)を調整するというものです。高い報酬につながる行動はより可能性が高くなり、低い報酬につながる行動はより可能性が低くなります。これは、AIの経験に基づいて意思決定プロセスを改良するようなものです。
PPO(近接ポリシー最適化)は、その安定性と効率性で知られる人気のあるポリシー勾配法です。これは、単一の経験に対してあまりに急激に変化しないよう確保しながら、AIの戦略を更新する慎重で体系的な方法を持つようなものです。
次に、より単純な方法である行動クローニングがあります。ここでAIは成功した解決策を模倣することを学習します。これは模倣による学習のようなものです。検索プロセスが非常に良い解決策(高い報酬を得るもの)を見つけた場合、AIは同様の状況でその解決策をコピーすることを学習できます。これは、解かれた例を研究することで数学の問題の解き方を学ぶ学生のようなものです。
論文は、o1が検索中に見つかった最良の解決策から学習するために行動クローニングを使用する可能性があることを示唆しています。これにより、これらの解決策を効率的に成功した戦略のレパートリーに追加することができます。あるいは、PPOのようなより複雑な方法を使用する前に、モデルを準備する初期的な方法として使用することができます。
次に、反復的な検索と学習があります。このアプローチの真の力は、検索と学習を反復的なループで組み合わせることから来ています。AIは解決策を検索し、結果から学習し、その後改善された知識を使用して将来さらに良い検索を行います。これは、練習、フィードバック、改善の継続的なサイクルのようなものです。
論文は、この反復的な進歩がo1が特定のタスクで人間を超える性能を達成する鍵であることを示唆しています。継続的に検索と学習を行うことで、AIは初期の訓練データの限界を超え、人間が思いつかなかった新しい、より良い解決策を潜在的に発見することができます。
さて、o1の仕組みを説明し、4つの重要な柱の基礎を理解したところで、私たちは超知能に近づいていると思いますか?この研究論文を読み、o1の仕組みの正確な詳細を理解した後、AIコミュニティ全体が超知能がそれほど遠くないと主張する理由が本当に分かります。
AIが解決策を検索し、その結果から学習し、改善された知識を使用して将来さらに良い検索を行うことができ、練習、フィードバック、改善の継続的なサイクルを持つことができるなら、理論的には人間を超える性能の達成が可能です。したがって、おそらく人工超知能はそれほど遠くないのかもしれません。