見出し画像

OpenAI o3モデルのテスト結果(1タスクあたり1800ドル以上)

6,215 文字

こんにちは。OpenAIが新しいo3モデルを提供し、現在多くの人々がo3の安全性テストの早期アクセスに応募していますが、興味深いのはo3がどこで失敗したかということです。これらの例を見てみましょう。
ここに公式のARC AGIタスクがあり、具体的な番号と参照を後ほどお伝えします。入力と出力の例がいくつかありますが、私の子供でもここで共通のパターンを理解し、これがテスト入力の場合、テスト出力はどうなるかを言えるでしょう。しかしo3はここで失敗しました。
別の例を見てみましょう。同じ構造です。青い指標が境界線にあり、それらの2つの青い指標を結ぶと、その青い線上にある赤い箱も青くなります。人間である私たちにはこれが理解できますが、テスト入力の複雑さが2番目の線で少し増加しただけでも、o3は失敗してしまいます。これは驚くべきことです。なぜなら、低計算モードだけでなく、高計算モードでも失敗するからです。
このビデオの最後でo3がAGIモデルなのかについて話しますが、まずは別の例を見てみましょう。これは非常にシンプルな例で、o3が失敗する例です。青、赤、緑、水色のものを見てください。これらの例があり、突然2つ目のオブジェクトが現れて複雑さが増します。ここまでの例を理解し、2つ目の例に1つの色分けされたバーがある場合、3つ目にどう適用すればいいかは理解できますが、o3は失敗してしまいます。
これがo3のパフォーマンスについての洞察を提供してくれます。パフォーマンスデータを見てみましょう。x軸には1タスクあたりのコストが100ドル、1,100ドル、2,000ドルとあり、特定のテストデータセットでの特定のパフォーマンススコアがあります。
ARC AGIの半非公開評価データセットでは、低計算バージョンのo3は76%のパフォーマンスを示し、高計算バージョンでは88%を示しています。現在月額200ドルを支払っているかもしれないo1モデルと比較すると、o1の低、中、高パフォーマンスデータは、この特定の半非公開評価データセットで25%から最大32%のパフォーマンスを示しています。
o1の30%からo3の76%、あるいは90%近くへのジャンプは大きな性能向上です。o3が評価された特定の評価データセットについて詳しく見てみましょう。2024年12月9日の技術レポートがあります。
完全なレポートを読まなくても良いように説明すると、半非公開のARC AGI評価データセットには、AIモデルの未見の問題に対する一般化能力を評価するために特別に設計された100の特定のタスクが含まれています。トレーニングデータセットとの汚染を避けるため、一般には公開されていません。
半非公開評価データセットは、公開データセットと真の非公開データセットの間の特別な中間的なものです。計算については、foraから素晴らしい投稿があり、OpenAIがo3を公開する前にo3のパフォーマンスを評価するよう依頼したときの正確な評価データセットが提供されています。
先ほど示したように、1タスクあたり約20ドルの低計算モードでは半非公開評価データセットで75%、1タスクあたり数千ドルかかる高計算モードでは87.5%、つまり88%のパフォーマンスを示しています。
インターネット上では数時間前に、OpenAIが月額20ドルから始まり、o1で月額200ドル、次のステップは月額2,000ドルになるという噂がありましたが、これは全く不可能です。1つのタスクだけでも1,000ドル以上かかるため、月額2,000ドルという価格は現実的ではありません。
ARCの価格は本当に透明性があり、データにも示されています。10時間前に更新されたGitHubリポジトリには、OpenAI o3のデータと結果があります。これが私のソースです。なぜなら、実際にテストを行い、OpenAIからo3のテストを依頼された人々からの信頼できるデータが欲しかったからです。
私はo3がどのように動作するのか、どのようにしてこのようなパフォーマンスの飛躍が可能なのかを理解したいと思いました。事前学習ではもうスケーリングできないと言われていたのに、どうしてこのような結果が可能なのか。30%から90%近くまでの向上を、極端なコストと極端なエネルギーで達成しているのです。
理論的な観点から理解してみましょう。ARC priceまたはGitHubに行くと、プロンプトの例と、franoisによる素晴らしいブログ投稿があります。技術レポートを読むと、正確なアイデアと詳細が得られます。
OpenAIの指示の下で2つのレベルをテストしました。半非公開評価データセットで100のタスクがあり、低パフォーマンスと高パフォーマンスがあります。75%と87.5%を達成しました。
また、可変サンプルサイズがあり、高効率は6のサンプルサイズ、低効率は1,24のサンプルサイズで、トークン数は3,300万から60億トークンという信じられない量です。タスクあたりのコストについて、OpenAIは低バージョンのコストを公開しないよう依頼しましたが、低スコアバージョンで1タスクあたり20ドルかかるとすると、高スコアバージョンでは1タスクあたり1,000ドルから2,000ドルと推定できます。o3の高性能モードで1タスクあたり約1,800ドルと見積もれます。これらはコストであって、OpenAIが請求する価格ではないことを覚えておいてください。
続いて、OpenAIと協力してo3をこの特定の評価データセットでテストし、AIが新しいタスクに適応する能力において大きなブレークスルーを示していると述べています。これから、トレーニングデータセットにある既知のタスク、すでに何百万回も見たタスクではなく、未見のタスクに焦点を当てていきます。
o3の正確な仕組みについては現時点では推測するしかありませんが、コアメカニズムは、トークン空間内での自然言語プログラム検索と実行のように見えます。テスト時に、o3はタスクを解決するために必要なステップを記述するすべての可能なチェーン・オブ・ソートの空間を検索し、これはAlphaCerスタイルのモンテカルロ探索に似ています。この検索は、おそらく何らかの内部評価AIモデルによって導かれていると想定されています。
これは非常に興味深い情報です。推論時に全く新しいタスクがあり、テスト時の計算やテスト時のトレーニングまで、推論実行中に実際に微調整のようなことを行っています。o3のタスク実行時間が13分以上かかり、プロンプトを入力してから結果が出るまでに13分待つ必要があることを考えると、かなり多くの処理が行われているようです。1タスクあたり2,000ドル近くかかるということは、これは極端な計算量だと思われます。
つまり、完璧に事前学習され、完璧に微調整され、完璧に選好整列された大規模言語モデルに対して、純粋な推論計算を行う必要があるということです。これは考えさせられます。何百万ドルもかけて事前学習、微調整、整列を行い、さらにビジョン言語モデルも作ったのに、パフォーマンスが出ないと言い、完全に複雑な推論時の計算、おそらくモンテカルロ探索も追加で必要だと言うのです。
franoisの引用によると、o3は実質的にディープラーニングによって導かれたプログラム検索の一形態を表しており、モデルはテスト時にプログラムの空間を検索します。この場合、それらは自然言語プログラムで、タスクを解決するためのステップを記述するチェーン・オブ・ソートや、より複雑なツリー・オブ・ソート、あるいはフォレスト・オブ・ソートが、この進化の次のステップになるかもしれません。
この検索はディープラーニングの事前分布によって導かれ、これが基本の言語モデルです。これは興味深い点です。なぜなら、事前学習、微調整、DPO整列があり、その後にユーザーからの実世界のタスクがあり、そのタスクに対して、数千のGPUを持つこのシステムが正しい答えを出すのに13分必要とし、その13分間に行っているのはプログラム空間のテスト時検索です。
franoisは、単一のARC AGIタスクを解くのに数千万トークンと数千ドルのコストがかかる理由は、この検索プロセスが、事前学習、教師あり微調整、整列中に学習した巨大なプログラム空間を通るすべての可能なパスを探索する必要があるからだと説明しています。これにはモンテカルロ探索アルゴリズムで知られているすべてのバックトラッキングも含まれます。
次のステップであるフォレスト・オブ・ソート計算について学びたい場合、OpenAI o1の長いチェーン・オブ・ソート推論構造から始まるテスト時計算についての動画で、すべての技術的詳細を説明しています。
完璧な事前学習でも、完璧な微調整でも、完璧な整列でもないことがますます明確になってきました。高性能なシステムを持ちたい場合、テスト時トレーニング、テスト時計算、テスト時適応について話す必要があります。
これは印象的だと思いましたが、次の瞬間に考えました。未見のタスクに対して、そしてこれが特定の評価データセットでの唯一の焦点ですが、事前学習、微調整、整列のすべての訓練知識は無用になります。なぜなら、これらはすべて推論時に実世界のプロンプトに適用するのに無用だからです。
現在のパターンをこれらの事前学習と微調整から解決策に適用しても解決策は見つからないと言っているのですか?なぜならfranoisは明確に述べています。ユーザーからの特定のタスクで、すべての可能な解決策の数学的空間を検索する新しいプロセスを開始する必要があり、おそらくこれが機能的な生成的なチェーン・オブ・ソートやフォレスト・オブ・ソートの空間なのです。
ユーザーからの特定のタスクで、この新しいプロセスを推論時に実行し、これは絶対に魅力的です。なぜなら、OpenAIが事前学習、微調整、整列はすべて素晴らしく、多くの素晴らしい最適化手法があるけれど、飛躍を遂げたいならテスト時適応を見る必要があると決めたことを示しているからです。
正直に言うと、数時間前にこれを読んだとき、現在のAI最適化技術についての私の理解を打ち破るものだと思いました。これは、私たちが行うこの微調整、DPO整列はすべて、ユーザーからの類似タスクに対してのみ機能するということを意味するのでしょうか?
「類似」が何を意味するにせよ、事前学習、教師あり微調整、整列フェース、強化学習フェースのトレーニングデータ分布に類似したタスクに対してのみ機能するということです。新しいタスクが見たことのあるものとあまりに異なる場合、失敗します。本当に失敗し、本当に低いパフォーマンス指標を示します。
他のすべてのモデルのARCテスト結果を見てください。それらはこのテスト時計算を持っていません。なぜなら、ユーザーから提示された実世界の例での特定のタスクに対して、モンテカルロ探索を伴う完全に新しい検索プロセスをテスト時、つまり推論計算中に開始する必要があるからです。
新しい未見のタスクがトレーニングデータ分布と大きく異なり、十分に類似していない場合、このAIシステムは失敗することを学ぶのは私にとって驚きでした。AIが何らかの素晴らしい創発的知性を生み出し、AIが一般化パターンを理解するというこの話は、o3のパフォーマンスによってOpenAIが示したように、そうではないと思います。もし私の意見に同意できない場合は、このビデオのコメント欄でお願いします。
テスト時トレーニングとテスト時適応についてより詳しく学びたい場合、内部の仕組みを説明する技術的な動画があります。ここでは、MITマサチューセッツ工科大学が開発したテスト時に最適化されたAI推論計算コード構造を紹介しています。
あるいはさらに深く技術的な内容を知りたい場合は、この空間での正確なモンテカルロ探索による推論プロセス、テスト時トレーニング適応プロセスのための新しいポリシー報酬のアイデアがあります。これらの動画は2週間前に作りました。なぜなら、これらの新しい技術がAIコミュニティにとって重要になると感じていたからです。
o3に戻り、franoisは現在のパフォーマンスは注目すべき成果であり、直感に導かれたテスト時のプログラム空間での検索が、任意のタスクに適応できるAIシステムを構築するための強力なパラダイムであることの明確な確認だと述べています。
2025年に公開予定の新しいARC AGI 2ベンチマークはすでにo3をさらに挑戦させるように設計されており、o3の限界を強調し、焦点を当て、克服すべきベンチマークとなるでしょう。これが、私がこの動画を始め、o3が失敗した場所、o3が隠れたパターンを推論できない場所、チェーン・オブ・ソートが数十億、あるいは数兆のトレーニングトークンからでも解決策を見つけることができない場所を示した理由です。
10,000のGPUと何ヶ月もの事前学習があっても、単純なパターンを発見することに失敗します。そして、AGIストーリーを愛するすべてのYouTuberに申し訳ありませんが、franoisも同意していますが、o3はAGIではありません。ニュースではそうだと読むでしょうが、技術的な観点から少し理解すると、ARCの技術レポートと評価レポートを読むと、私が示したように単純なタスクで失敗し、チェーン・オブ・ソートの生成と評価において人間の作成者のデータに依存していることがわかります。
トレーニングデータの品質が可能な限り高くない場合、かなり大きく失敗します。これは当然だと思います。o3は現実での自律的な基盤が欠けており、ここではトークン空間評価にのみ依存しており、これは特に分布外のタスクでの頑健性において制限要因となっています。
再び古い格言に戻りますが、データ、データの品質が良好なパフォーマンスのLLMにとって最も重要な要因です。事前学習、微調整、DPO整列、強化学習トレーニング手法にどれだけ多くのプロセスを組み込んでも、o3を見ると、これらはすべて一種の飽和に達していることがわかります。
しかし、新しいフロンティア、来年達成する未発見のパフォーマンスは、このテスト時計算、テスト時トレーニング、推論時のテスト時適応によってもたらされるかもしれません。答えを得るのに13分、15分、高性能な場合は1時間まで待つ必要があるかもしれません。AIは可能な解決策の世界を構築し、ユーザーからの実際のタスクですべての可能な解決策を探索し、正しい解決策を見つけるまで極端なリソースを費やします。
2025年に私たちを待っているものは驚くべきものだと思います。これがOpenAIがo3をリリースしてから10時間後に私が見つけられたことです。これが現在の知識です。追加の情報、新しいアイデアを提供できたと思います。あなたのアイデア、あなたが知っていること、読んだことをぜひ共有してください。このビデオのコメント欄でお待ちしています。次の動画でお会いできることを楽しみにしています。

いいなと思ったら応援しよう!