o3が切り開くAIの新時代：自然言語プログラム探索による「知の再結合」とは

2024年12月25日 11:45

AIが未知のタスクを自力で推論し解決する――そんな汎用人工知能（AGI）の夢がOpenAIの新システム「o3」によって大きく近づいたかもしれません。従来の大規模言語モデル(LLM)では歯が立たなかったARC-AGIベンチマークをo3は驚くべき高スコアで突破。鍵となるのは「自然言語プログラム探索」という革新的アプローチです。本記事では、o3がもたらすブレイクスルーの要点とAGIへの道筋を解説します。未知のルールに柔軟に適応するAIの可能性をどうぞご覧ください。

注）この記事はChatGPTのo1が書きました。ここで書かれているo3の仕組みは、主にARC-AGIベンチマークの開発者による推測記事を基にしたものであり、OpenAI自体はo1やo3の仕組みについて公式発表はしていません。

第1章：ARC-AGIテストで見せた衝撃のブレイクスルー

近年、生成AI――いわゆる大規模言語モデル（LLM）――の進化はめざましく、多様なタスクに対して高い性能を示すようになってきました。しかし、その一方で、これらのモデルが本当に「未知の課題」や「これまでにない問題」にどこまで対応できるのかは常に疑問視されてきました。そこに風穴を開けたのがOpenAIの新システム「o3」です。2024年末、o3はAGIへの進捗を評価する公開ベンチマークである「ARC-AGI」において、「高効率」（少ない計算資源）の設定でも75.7%という従来を大きく上回るスコアを叩き出し、さらに計算リソースを172倍投入する「高計算」の設定では87.5%に到達しました。

ARC-AGIとは、主に未知のルールや複雑なパターン認識を要するタスクを集めたベンチマークで、AIにとって「真の汎用人工知能」に近づくための高いハードルを示す指標として知られています。GPTシリーズやGPT-4の改良版であるGPT-4oなどが過去に挑戦してきましたが、2020年のGPT-3によるスコアは0%、2024年初頭のGPT-4oですら5%という極端に低い数字でした。ところが、o1と呼ばれる新しいモデルを経て開発されたo3は、このスコアを一気に飛躍させたのです。4年かけてようやく数パーセントの向上しか見られなかった領域において、一気に70～80%台へと到達したこの成果は多くの専門家を驚かせました。

さらに注目すべきは、o3が示した「高効率モード」と「低効率モード」の違いです。これにより、AIを評価する際に、単にタスクを解けるかどうかだけではなく、どれだけ少ない計算資源（コスト）で解けるかという観点が重要視されるようになりました。ARC-AGIでは、約10,000ドル以内の計算コストに収まれば正式なランキングエントリーが可能と定められており、o3は高効率モードでの75.7%というスコアがこの制限内に収まったため、堂々の1位を獲得しました。一方、桁違いのリソースを投入した低効率モードでは87.5%を記録し、タスクへの適応力がさらに向上することも明らかになりました。

o3のARC-AGIテスト結果
パブリックは公開セット、セミプライベートは（ほぼ）非公開セットを意味しています。

従来のGPTファミリーは、とにかく「大規模に学習データを読み込み、より巨大なパラメータ数を持たせる」というアプローチで性能を高めてきました。しかしARC-AGIのように、まったく未知のルールやコンテキストが与えられるタスクでは、そのやり方だけでは限界がありました。GPT-3やGPT-4がARC-AGIをほとんど解けなかったのは、どれだけ学習データを増やしても、初めて見るルールをその場で組み立てる柔軟な発想力が足りなかったからです。

それを可能にしたo3は、既存の大規模言語モデルをベースにしつつ、タスクを「自然言語プログラム」として捉え、テスト時に「推論のための探索プロセス」を動的に行うという革新的なアプローチを採用していると言われています。これによって、一度生成した文章で完結するだけの従来のLLMとは異なり、その場その場で試行錯誤を重ねながら最適な答えを探索・構築できるようになったわけです。

o3の成功は、AIの今後の方向性を大きく変える可能性を秘めています。ベンチマークのための単なるスコアアップにとどまらず、本当の意味で未知の課題に対処できる「汎用性」が見え始めたからです。こうした流れは、将来にわたってAIが多様な実世界の問題解決に進出するうえで、非常に大きなインパクトをもたらすでしょう。

第2章：o3の核心メカニズム――自然言語プログラム探索と「知の再結合」

o3がARC-AGIで驚異的なスコアを叩き出した背景には、従来のLLMとは一線を画すアーキテクチャ上の仕組みの変化が存在します。これまでのGPTシリーズの大まかなイメージは、「数多くの事例から学んだパターンを適切にマッチングし、大量のパラメータを駆使して、入力に対して最も尤もらしい応答を返す」というものでした。これはいわば記憶から最適なパターンを検索し、そのパターンを適用するアプローチであり、確かに大量のテキストを学習するだけでも高い言語処理性能を獲得できます。しかし、未知のタスクにおける柔軟な推論や即席で新しいプログラムを組み立てるようなことには限界がありました。

しかしo3は、テスト時に自然言語によるプログラムを生成・探索し、解答にたどり着くまでの思考過程（Chain of Thought、CoT）を自ら記述・評価しながら進めると報告されています。具体的には、AlphaZeroで使われるようなモンテカルロ木探索（MCTS）に近い手法を自然言語空間（トークン空間）で実施している可能性が指摘されています。o3には「ベースとなるLLM」と「探索を導く評価モデル（エバリュエータ）」のようなモジュールが組み込まれ、それぞれが連携することで、まるで「自分でコードを書いて試しながら、正解を見つけていく」かのようなプロセスを実現しているのです。

このプロセスを「自然言語プログラム探索」と呼ぶのは、従来の深層学習システムが自動生成した重みやアテンションマップなどの「内部表現」の中でのみ推論していたのに対し、o3は人間が読み解ける言語表現（CoT）を動的に組み替えるという点に大きな特徴があるからです。言い換えれば、o3は既存の膨大な「知識ベース」を持ちながら、その場で新しい論理展開を試みて成功パターンを見つけ出す「プログラム合成」を行っているわけです。

さらに興味深いのは、この試行錯誤のプロセスが、多数のトークンを消費するためにコストが高くなるという事実です。記事のデータによると、タスクひとつに数千ドル規模のコストがかかることも珍しくなく、数千万～数億単位のトークンが消費されるケースがあるとのこと。これは、同じタスクを少しずつ手を変え品を変え、異なるCoTを試しながら解を探索し、評価モデルでフィードバックを得るという膨大なループを回しているからだと推測できます。

このようなアプローチは、まさに「記憶にあるプログラム（知識）をただ呼び出して適用する」のではなく、「足りない部分を試行錯誤しながら補完し、まったく新しいプログラムを生み出す」という点で、既存のLLMと一線を画します。まさに「知の再結合（Recombination of Knowledge）」とも呼ぶべき現象であり、ここにこそARC-AGIのような未知の問題への強さが宿っているのでしょう。

もっとも、この探索型アプローチにはまだ限界もあります。自然言語ベースの探索ゆえに、実行結果を直接フィードバックする（現実世界をシミュレートしてみる）わけではなく、すべてがモデル同士の評価に依存しているため、いわゆる「タスクの本質に対する正しさ」を確実に担保するのは難しい面も残されています。今後は、検証可能な外部実行環境と組み合わせるなど、さらに高度な手法が出てくる可能性が指摘されており、o3はまだ大きな進化の途中であると言えるでしょう。

第3章：o3が示す未来――AGIへの道と今後の課題

o3の大きな快挙は、AI研究のひとつの転機であることを示しています。ARC-AGIは人間には容易でもAIには難しい課題を集め、汎用的な推論力を測るための指標として機能してきました。こうした課題を突破することは、「AIが未知の状況に自力で柔軟に対応できる」という大きな目標――すなわちAGI（汎用人工知能）――に一歩近づくことを意味します。しかし、ARC-AGIを高得点でクリアしたからといって、すぐにAGIが実現したわけではありません。o3にも、簡単なタスクで謎の失敗をするなど人間には不可解な挙動がまだ報告されており、AGIへの道のりはなお遠いとも言えます。

実際、ARC-AGIは完全にクリアしてしまえば「AGIと同等」と宣言できるほど単純なベンチマークではありません。あくまで未知のタスク対応力を見るもので、もしAIがこのベンチマークをすべて解けたとしても、人間のように物理世界で実験を行ったり、自発的に目標を設定したり、といった総合的な知能を獲得したとは限らないのです。それでも、o3が見せたベンチマークの常識を覆す一気のスコア上昇は、今後のAI開発において「プログラム合成」や「検索型推論」を中核に据えたアプローチが急加速するであろうことを示唆しています。

また、ARC-AGI-1の「飽和」を受けて、2025年にはさらに上位互換の「ARC-AGI-2」がローンチされる予定です。ARC-AGI-2は既に2022年から準備が進められており、ARC-AGI-1よりはるかに多様で複雑、そしてAIにとって不明瞭なタスクを含むとされています。OpenAIのo3といえど、この新しいテストでは大幅にスコアが落ち込む可能性が高く、まだまだ突破すべき課題が山積みだとも言えるでしょう。だからこそ、競争的に研究を進める意味があり、新しい技術革新が引き起こされる期待も高まっています。

さらに注目すべきは、「オープンソース化」を加速する動きです。ARC Prize Foundationは、来年度のコンペで高効率かつオープンソースのソリューションが出現することを目標に掲げ、コミュニティ主導での解析や改善を呼び掛けています。o3を超える発想や実装が今後オープンソースの形で登場するかもしれません。新技術のハードルが高いからこそ、多数の研究者・開発者が知恵を寄せ合い、次なるブレイクスルーを目指す土壌が育まれると期待されています。

総括すると、o3は従来のLLMが抱えていた「その場のタスクを手探りで解決する柔軟性不足」という根本的な弱点を克服する、ひとつの解決策を示したと言えます。これはAI研究において大きな前進であり、新しいアイデアの重要性を痛感させる出来事でもあります。大規模パラメータ化と膨大な学習データという「スケーリング」だけでは到達できなかった新領域への扉が開かれたのです。この先、自然言語プログラム探索に加えて、さらなる推論方法や外部環境との連携などが組み合わさることで、AIはより多彩な課題を解決できるようになるでしょう。AGIへの道は険しくとも、o3の一歩は着実に次なるブレイクスルーを呼び込んでいると言えそうです。

この記事は、ChatGPTのo1モデルに以下のプロンプトを入力して作成しました。

以下の英文記事を踏まえて、o3の仕組みを中心に、ITニュース用のユニークなコラム記事を日本語で書いて。タイトルも考えて。１章当たり1000文字以上で、全体で３章構成。一度の出力で必ず全部出力して。
####
（以下にブログ記事の全文を貼り付け）

ARC-AGIの問題は、以下のページの「PLAY」のところから実際に試してみることができます。サンプルの問題が6問掲載されています。

「Configure your output grid:」の「Copy from input」をクリックして、問題をコピーします。
「Click to select a color:」から色の付いたタイルを選択し、Outputの回答の位置をクリックしてタイルを貼り付けます。
「See if your output is correct:」の「Submit solution」のボタンをクリックして回答を提出し、正解すると祝ってもらえます。