12 Days of OpenAI: Day 12「o3登場：推論の常識を覆す瞬間」

2024年12月21日 04:07

OpenAIの「12 Days of OpenAI」イベントの最終日、Day 12では、新たな進化を遂げた大規模推論モデル"o3"についての発表が行われました。
o3 はARC-AGI で 85% を超えるスコアを獲得しました。人間のパフォーマンスは 85% です。言い換えると、AGI は 2024 年に達成され、2025 年はすごいことになるでしょう。

Day 12: Early evals for OpenAI o3 (yes, we skipped a number)https://t.co/iWXg9IGuZM
— OpenAI (@OpenAI) December 20, 2024

以下、本日の12 Days of OpenAI: Day 12を解説していきます。

o3とは何か？

今回発表されたo3は、これまでのo1モデルの進化版です。o1はOpenAIが初めて公開した大規模推論モデルで、RL（強化学習）を用いたLLM（大規模言語モデル）でした。今回のo3は、そのRLをさらにスケールアップすることで、推論能力が飛躍的に向上しています。

発表では、これまでのモデルと比較しても、o3があらゆる指標で非常に優れた性能を発揮していることが示されました。

Pepe the Frogとその関連性

「Pepe the Frog（ペペ・ザ・フロッグ）」は、2005年にマット・フュリー（Matt Furie）によって創作された漫画キャラクターで、もともとは「Boys Club」というコミックに登場したカエルです。可愛らしい表情とシンプルなデザインでインターネットミームとして人気が爆発しました。しかし、インターネット文化の中で多様な解釈が生まれ、コミュニティ間で様々な使われ方をされてきました。

今回のイベントで登場したサンタ帽をかぶったカエルたちはPepeのデザインに類似していますが、必ずしもPepeそのものとは限りません。しかし、こうしたキャラクターは、インターネット文化やミームとしての象徴的な存在感を持ち、人々に親しみを感じさせるデザインとなっています。特に、クリスマス仕様で登場することで、Pepeのユーモラスで柔軟な文化的影響を感じることができます。

主な成果とハイライト

o1シリーズおよびo3-miniと比較した際のEloスコアとコスト効率の向上が示されています

プログラミング分野での成果：Codeforcesのスコア
- o3は最新のプログラミングコンペティションでテストされ、Codeforcesの推定レーティングが驚異的な2727に達しました。これは、世界のトッププログラマーと肩を並べる実力を示しています。
- Codeforcesにおけるこのスコアは、現在の最先端プログラマー（Jakub Pachocki氏など）をも凌ぐレベルであり、この分野での大きなマイルストーンとなりました。
数学的推論能力：Frontier Math 2024
- Frontier Mathという非常に難易度の高い数学問題において、o3は正答率を2%から**25.2%**に引き上げました。
- これらの数学的質問は完全に保持された新しいテストセットであり、非常に厳しい基準のもとで性能が測られています。
ARC（抽象的推論と常識）におけるスコア
- ARCのセミプライベートテストセットで87.5%、パブリックバリデーションセットでは**91.5%**という驚異的なスコアを記録しました。
- このパフォーマンスは、以下のグラフが示す通り、従来のシリーズであるo1やそのミニバージョンと比較しても飛躍的な進化を遂げています。特に、計算資源あたりのスコアが非常に効率的であることが強調されています。
一般知識QA（GPQA）での結果
- GPQA（General-Purpose Question Answering）では、o3が**87.7%**というスコアを達成。これは従来の最高記録（Gemini Flash 2の62%）を大幅に超える結果です。

**ソフトウェアエンジニアリング：SWE-benchでの性能**
o3-mini（low、medium、high）との比較により、o3の一貫した精度の向上が確認されている

o3は最新のプログラミングコンペティションでテストされ、Codeforcesの推定レーティングが驚異的な2727に達しました。

SWE-bench Verifiedでは、o3は**71.7%**という新たな最先端スコアを達成しました

※：SoTAとは「State of the Art（最先端）」の略で、ある分野や技術において、現在最も優れた成果や水準を指します。AIの性能評価においては、SoTAは最新のベンチマークや他の競合モデルと比較した場合のトップパフォーマンスのことを意味します。

たとえば、「o3がSoTAを上回った」という表現は、o3がこれまでの最先端技術やモデルの性能を超えたことを示しています。このような評価基準があることで、研究や開発がどの程度進化しているかを客観的に比較できます。

結果の信頼性について

これほどの性能向上があると、偶然のデータ汚染（トレーニングデータとテストデータの重複）が疑われるかもしれません。しかし、OpenAIはこれを非常に慎重に回避しています。特にFrontier MathやARCのような強力に保持されたテストセットを使用しており、これらは汚染の可能性がないことが保証されています。

o3 Miniの詳細

o3 Miniは、o3シリーズの新しいコスト効率モデルとして発表されました。このモデルは、3段階の「Thinking Time」（低・中・高）をユーザーが選択可能で、問題の複雑さに応じて推論時間を調整できます。

低コストでの高効率: 低推論時間でも優れた性能を発揮し、Codeforcesや数学的推論においてもo1 Miniを大きく上回るスコアを記録しました。
API機能の向上: o3 Miniは、構造化出力や関数呼び出しなど、開発者に求められる新機能をサポートし、コストパフォーマンスをさらに高めています。

ライブデモでは、o3 Miniが自らの性能を評価するコード生成や実行を自動的に行い、その柔軟性と効率性を実証しました。

o3 MiniがPythonスクリプトを自動生成し、ローカルサーバーを起動するなど、高度なタスクを迅速かつ正確に実行する姿が披露されました。

安全性と新技術「Deliberative Alignment」

今回の発表では、AIモデルの安全性を強化するための新しい技術「Deliberative Alignment」も紹介されました。

従来の手法との違い: 単なる安全な例と危険な例の提示ではなく、モデルが推論能力を活用して、入力が安全かどうかを論理的に判断します。
結果の向上: この新手法により、モデルの拒否判断（何を拒否すべきか）と受理判断（何を受け入れるべきか）の精度が大幅に向上しました。

o3とo3 Miniのリリーススケジュール

Jimmy Apples氏のツイートによると、o3 Miniは2025年1月末にリリースされ、その後すぐに完全版のo3が登場する予定です。また、研究者向けに安全性テストプログラムが開放されており、申請は2025年1月10日まで受け付けています。

o3の未来と応用

今回の発表により、o3はあらゆる分野で新たな可能性を切り開くモデルとして注目されています。特に、

プログラミング競技
ソフトウェアエンジニアリング
数学的推論
一般常識推論といった領域での応用が期待されます。

OpenAIのNat McAleese氏は、「o3のこのような性能向上は2024年12月に実現できるとは思っていなかった」と驚きを示しています。このモデルがさらなる分野でのブレイクスルーを達成することが期待されています。