
OpenAI o3はAGIなのか? その答え
4,129 文字
OpenAIは今年、私たちが望みうる最高の贈り物をそのバッグから取り出してくれました。それは間違いなく最先端であり、汎用人工知能の定義に最も近いo3です。
おそらくみなさんはそのイベントをご覧になったと思いますが、ここでは全てを繰り返すつもりはありません。代わりに、イベントを見た後に生じるかもしれない疑問にお答えしていきます。なぜo2という名前をつけなかったのか、これは本当にAGIなのか、そして彼らがライブでAIエージェントを作成し、実行した方法についても説明していきます。
まず最初に思い浮かぶ疑問、なぜo2と呼ばなかったのかについてです。Telicaという会社がo2という名前の権利を持っており、彼らの製品に使用しているため、OpenAIはo2という名前を使用できませんでした。そのため、o3となったのです。
ベンチマークに移りましょう。o1は1,891点でしたが、o3はこのモデルを完全に圧倒し、2,727点を記録しました。ここで別の興味深い点をお見せしましょう。OVシステムカードを見ると、OVプレビューをリリースした時の結果は、OVが1,673点で、このテスト用に特別に訓練されたモデルが1,807点でした。これは、彼らが徐々にこのモデルのパフォーマンスを向上させ、さらに高いスコアを出せる可能性があることを意味します。
2,727点というスコアはさらに上がる可能性があり、最終的にはOpenAIの研究者マークが記録した約3,000点に近づく可能性があります。明らかに、これらのトップレベルの推論モデルよりも優れた絶対的な専門家はいますが、プログラマーの90%、あるいは95-99%よりも優れているでしょう。
SWE Bench Verifiedに移りましょう。これはOpenAIがリリースしたベンチマークで、モデルが解決できるGitHubの問題を見るものです。このテストでは、o3は71.7%を記録し、これは絶対的な強さを持つモデルo1の48.9%と比較して大きく上回っています。
数学のベンチマークを見ると、o3は96.7%を記録し、完璧なスコアに非常に近づいています。先ほど話したマーク・レンはAIM数学ベンチマークで100%の正確性を達成していますが、o3ができなかった理由は、たった1問答えられなかったためで、そのためにパーセンテージが96.7%に下がりました。
しかし、それでもo3は競合よりも優れています。ただし、このベンチマークはo3の絶対的な力を正しく評価する方法ではありません。フロンティアベンチマーク、AGIについて彼らが言っていること、そして彼らのベンチマークがどのように完全に打ち砕かれたのかを見ていきましょう。
まず、レイテンシーを見てみましょう。「最初のトークンまでの時間」、つまりモデルから最初の単語やトークンが出てくるまでの時間が示されています。GPT-4oは非常に低いレイテンシーで、わずか0.5秒です。より高性能なモデルになるにつれて時間は増加し、o3ミニのハイバージョンでは23.33%のレイテンシーがあります。
ジェレミーを見てください。彼はRKGベンチマークで最高スコアの記録を持っていた人物です。53.6%のスコアを記録し、3.5 Sonetを使用しました。彼は直接テストを行ったわけではなく、進化的なテスト時の計算を使用し、情報を読むと、このポイントに到達するために何らかの関数などを使用したことがわかります。
しかし、モデルの純粋なパフォーマンスだけを見ると、OpenAI o1は18%でしたが、現在o3は最先端のスコアである75.7%を達成しています。
実際にベンチマークのホームページに行き、「OpenAI o3 RKGI結果」のセクションを見ると、o3が異なる効率レベルで、異なるセットでどのようなスコアを獲得できたかが説明されています。セミプライベート評価とパブリック評価の2つのセットがあります。セミプライベート評価は過学習をチェックするための100の非公開タスク、パブリック評価は400の公開タスクです。
高効率とは、モデルが高いスコアを出す必要がありますが、特定の制約の下で効率的でなければならないということです。この制約の下で、o3モデルは75.7%のスコアを達成し、総コストは2,000ドル、3,300万トークンが使用され、タスクあたり約20ドルが使用されました。
効率を下げていくと、このモデルのスコアは上昇していきます。セミプライベートの低効率では87.5%のスコアを達成しています。小売コストやタスクあたりのコストは表示されていません。これは、モデルを限界まで押し上げており、OpenAIがまだ価格モデルを決定していないためです。
パブリックベンチマークの400の公開タスクでは、効率は低く、総計算コストなどは考慮されていません。その状態で、このモデルは91.5%のスコアを達成しました。高効率モードの6サンプルの代わりに1,024サンプルが取られ、95億トークンが使用されました。
なぜこれが重要なのでしょうか。技術報告書を見ると、ベンチマークスコアは85%です。彼らによると、人間は最大85%のスコアを達成できますが、このモデルは制約や制限なしで91.5%を達成しました。
彼らの記事では、これは段階的な改善ではなく、真のブレークスルーだと述べています。AGIかどうかという質問に対して、彼は、これはまだAGIではないと答えています。o3は依然としていくつかの非常に基本的なタスクで失敗しており、これは基本的な知能とは異なることを示しています。
彼は、このモデルが完全に打ち砕いたため、RKGI 2ベンチマークをリリースする必要があると主張しています。この新しいRKGI 2ベンチマークは、91.5%というスコアが30%未満になるように設計されると言います。しかし、賢い人間はトレーニングなしで95%以上のスコアを達成できると述べています。この主張が実際に成り立つかどうかは、まだ見てみる必要があります。
EPO AIのフロンティアベンチマークに移りましょう。私が最も注目していたベンチマークです。RKGIよりもこちらの方が重要だと考えていました。以前のスコアを見ると、どのモデルも問題の2%以上を解決できませんでした。最高はGemini 1.5 Proで、なぜかそうなっていました。最大で2%でした。
多くの人々が主張していたことをお見せしましょう。メインページを見ると、フィールズ賞受賞者のテレン・STWが「これらは非常に難しい問題で、少なくとも数年間はAIは解決できないだろう」と述べています。しかし、彼らがどれほど間違っていたかを見てみましょう。
Gemini 1.5 Proは以前の最先端で2%でしたが、o3は驚異的な25.2%を記録しました。灰色の部分を無視しても(これは高計算条件かもしれません)、低計算条件でも、あらゆる制約下でも、このより低いパーセンテージでさえ、はるかに高いのです。
これらは私たちが日常的に使用する質問ではなく、実際に研究ベースの質問です。このベンチマークを作成するのに多くの時間がかかり、多くの人々が完全には解決できないと主張していましたが、o3は25.2%のスコアを達成しました。
これら全ての後、彼らは私たちの目の前でo3ミニをデモし、エージェントを作成しました。なぜそのように言うのか、このプロンプトを見てください。HTMLファイル用にローカルでサーバーを起動するPythonスクリプトを書くように指示されています。大きなテキストボックスなど、全てが書かれています。
彼らが言っているのは、プロンプトをそのコードに送ると、そのプロンプトがキャプチャされ、o3ミニに送られ、o3ミニからの応答が再度キャプチャされ、Macラップトップのターミナルでコードが実行され、出力が表示されるというコードを書くことです。これは文字通りエージェントです。指示を与えると、それをモデルに送り、モデルはコードを提供し、さらにそのコードを実行します。あなたは何もする必要がなく、ただプロンプトを与えるだけです。これら全てを1つのコードで行う必要があります。
インターフェースを見てみましょう。プロンプトは「OpenAIとランダムな数字を表示する」というものです。送信すると、このプロンプトは実際にo3ミニモデルに送られ、これを実行できるコードを提供するように求められます。そして、生成されたコードをキャプチャし、実行して出力を表示します。コードがキャプチャされ、実行され、「OpenAI 41」という答えが出ました。これは最も純粋な定義におけるエージェントです。
しかし、それだけではありません。このプロンプトでは、提供されたリンクを通じてo3ミニローモデルをダウンロードし、GPQベンチマークを取り込み、オプションをシャッフルしてこのモデルでテストを行うコードを書くように指示されています。最後に得られるのは結果だけで、それ以外は何もする必要がありません。ただこのプロンプトだけで、他は全てコードによって行われます。
全てのテストが行われ、結果だけが表示されます。これら全てを1つのプロンプトだけで実行することができました。これは他のAIラボへの良い予告であり、警告でもあります。
これが今日私たちが得たものです。OpenAIはo3モデルのデモを見せ、私たちの心を吹き飛ばしました。o3ミニは2025年1月末までにリリースされ、o3については日付は言及されていませんが、数ヶ月後にリリースされる可能性があります。
これが全てでした。OpenAIはたった1つの動画で、競合を完全に打ち砕き、私たちが待ち望んでいた全てのベンチマークを、そしてAIはこれができない、あれができないと自慢していた全てのことを打ち砕きました。2025年はまだ始まっていませんが、私は来たる未来と来年にとても興奮しています。どう思うか、みなさんの反応をぜひシェアしてください。一緒に議論しましょう。また次回お会いしましょう。