新しいOpenAI o3とo3-Mini:これはAGIなのか?(詳細な分析)
3,155 文字
OpenAIは12日間のキャンペーンの12日目として、o3とo3-miniを正式に導入する大規模な新アップデートを発表し、早めのクリスマスプレゼントを私たちに贈ってくれているようです。これは、つい1週間前にo1 Proを発表したばかりだったため、非常に予想外でした。しかし、このo3モデルは驚くべきもので、ARC AGIベンチマークで87%のスコアを記録しています。これが何を意味するのか分からない人のために説明すると、このモデルはほとんどの分野で人間と同等のパフォーマンスを達成しているということです。つまり、AGIに非常に近づいているということですが、先走りすぎないようにしましょう。まだ完了すべき作業が多く残されています。
現時点では、o3とo3-miniという2つの新しいモデルセットが提供されますが、まだ利用可能ではなく、価格も完全には決定されていません。ただし、o3ハイチューンモデルは約1,000ドルと予想され、これは非常に高額です。o3とo3-miniは、数学、コーディング、複雑な推論など、さまざまな種類のタスクで印象的なパフォーマンスを提供するように設計された2つの異なる推論モデルです。
タスクの複雑さに基づいて応答時間をカスタマイズできる3つの推論努力モードがあります。単純な問題に対して素早い応答を提供する「低推論努力」、中程度の複雑さのタスクに基づく「中推論努力」、そして複雑な課題に対してより長い思考時間を要する「高推論努力」の3つの基準があります。
このモデルには自己評価機能があり、自身のパフォーマンスを評価するためのスクリプトを作成して実行できます。これが、ARC AGIベンチマークで非常に良い成績を収めている理由です。また、低推論努力モードではGPT-4 Turboに匹敵する瞬時の応答時間を実現する改善された遅延もあります。中モードと高モードも、o1-miniと比較して遅延が大幅に改善されていますが、当然ながらコストは高くなります。
先ほど述べたように、ARC AGIベンチマークで87%を達成し、これは2024年のGPT-4の5%から大幅な改善です。このo3モデルは、新しいタスクにおいて人間レベルのパフォーマンスに近づく画期的なタスク適応能力を示しています。100の非公開タスクを含む半公開Evolと、400の公開タスクを含む公開Evolという2つの異なるデータセットでテストされ、o3は高効率モードで75.7%、低効率モードで87.5%という優れた成績を収めました。
興味深いことに、人間がARC AGIタスクを解決するのにタスクあたり約5ドルかかるのに対し、o3が同じタスクを実行するには低計算モードでもタスクあたり177ドルから20ドルが必要とされています。これは高計算モードではなく低計算モードの場合のみの話です。つまり、現時点でこれらのタスクを解決できるものの、リソースの使用という観点からは効率的ではないということです。今後数年でこれらの改善が期待されています。
AGIへの一歩前進だと言いましたが、このモデルを紹介する多くのYouTubeのタイトルや動画で「これがAGIだ」という主張を目にするかもしれません。私の動画でもそうかもしれませんが、実際にはそうではありません。このモデルは確かに優れた一般化能力を示し、大きな進歩を遂げていますが、人間が些細と感じるような単純なタスクで失敗します。
ARC AGIベンチマークで高いスコアを達成しているからといって、それがAGIの達成を意味するわけではありません。これは彼らが段落で述べていることです。現在も単純なタスクで失敗するため、開発中であり、今後数年かけてAGI達成に向けてさらなる進歩が期待されています。ARC AGI 2などの新しい課題では、o3の限界がさらに露呈すると予想されています。現在、ARC AGI 2では高計算モードでも30%しか達成できておらず、賢い人間はトレーニングなしでも95%以上のスコアを達成できるとされています。これは、AGIの標準に達するにはまだ多くの作業が必要であることを示しています。
o3モデルのパフォーマンスをさらに詳しく見てみましょう。様々なベンチマークで非常に優れた成績を収めています。ソフトウェアエンジニアリングタスクでは、71.7%の精度を達成し、前身のo1プレビューやo1を上回っています。o1とo1プレビューがSonic 3.5にも及ばなかったと指摘する人もいるでしょうが、この新しいo3モデルは71.7%を達成し、エントリーレベルのプログラマーをも上回るパフォーマンスを示しています。
競技プログラミングでは、ELOレーティング2727を記録し、高度な推論とコーディングスキルを持つエリートコーダーの中に位置しています。これは驚異的で、トップ5,000以内のスコアを達成できるモデルは多くありません。
数学に関しては、最も困難な数学ベンチマークで優れた成績を収め、問題解決と抽象的推論に大きな投資を示しています。これらの異なるスコアで新しい基準を設定し、明らかに人間レベルの専門知識と機械駆動の効率性の間のギャップを埋めています。
o3とo3-miniでは、多くの開発者に役立つ新しいAPI機能が追加されています。新しいo3モデルでは、統合と実行を簡素化する関数呼び出し機能、より良い使用性のための正確で体系的なデータ取得を可能にする構造化出力、そしてよりシームレスなデバッグとコラボレーションのための開発者メッセージという新しいAPI機能があります。
OpenAIが投稿した新しいo3モデルのデモビデオを見てみましょう。モデルに対して、UIからの難しいデータセットで自己評価するスクリプトを書くように依頼しました。これはモデル自身が最初に作成したコードジェネレーターと実行者からのものです。まず、o3-miniハイをテストしており、タスクはPythonを使用してコードジェネレーターと実行者を実装することです。このPythonスクリプトを実行すると、テキストボックスを含むUIを持つローカルサーバーが起動します。
テキストボックスでコーディングリクエストを行うと、o3-mini APIに送信され、o3-mini APIがタスクを解決してコードを返し、そのコードをローカルのデスクトップに保存して、ターミナルを開いてコードを実行します。コードをコピーしてサーバーに貼り付け、このサーバーを起動すると、テキストボックスが表示されるはずです。素晴らしい、コーディングの提案を入力して送信できるUIが表示されました。
そして、すべての質問を整理してモデルに答えさせ、結果を解析して採点します。これは非常に高速で、実際に結果を返します。低推論努力モデルで61.6%を達成し、1分以内で完全な評価を行います。
これは間違いなく素晴らしいモデルであり、AGIへの一歩前進です。AIスペースをさらに改善し続けているOpenAIの取り組みを高く評価しています。すべてのリンクを説明欄に記載しますが、本質的に、これは人間レベルの専門知識と機械駆動の効率性の間のギャップを埋める新しい基準を導入する、非常に印象的なものです。
今日の動画で使用したすべてのリンクを説明欄に記載します。PatreonとTwitterページもフォローしてください。最後に、購読とチャンネル登録、通知ベルの設定、この動画へのいいねをお願いします。また、以前の動画もチェックしてください。きっと役立つコンテンツがたくさんあります。それでは皆さん、素晴らしい一日を。前向きに、また近いうちにお会いしましょう。ピースアウト。