![見出し画像](https://assets.st-note.com/production/uploads/images/166640109/rectangle_large_type_2_7aa784f3a39b1b7381b13c25810af3c6.jpeg?width=1200)
OpenAI o3とo3ミニ - OpenAIの12日間:12日目
8,170 文字
なんとARC AGIで87.5。これは今年最大のニュース。AGIは達成された。
おはようございます。今日は皆さんにエキサイティングなお知らせがあります。12日前にこの12日間のイベントを、私たちの最初の推論モデルであるo1のローンチで始めました。人々がそれを使って何をしているのかを見るのは素晴らしく、また皆さんがどれほどそれを気に入ってくれているかを聞くのは大変嬉しいことです。これは、モデルを使って多くの推論を必要とする、ますます複雑なタスクを実行できるAIの次のフェーズの始まりだと考えています。
このイベントの最終日である今日は、一つのフロンティアモデルから次のフロンティアモデルへと移行するのが面白いのではないかと考えました。今日は次のフロンティアモデルについてお話ししたいと思います。論理的に考えればo2と呼ばれるべきかもしれませんが、Antropicの友人たちへの敬意を表して、そしてOpenAIが本当に命名が下手だという伝統に則って、o3と呼ぶことにしました。実際、今日は2つのモデルを発表します。o3とo3ミニです。o3は非常に賢いモデルです。o3ミニも信じられないほど賢いモデルですが、パフォーマンスとコストのバランスが優れています。
まず悪いニュースから言うと、今日これらを一般公開することはありません。良いニュースは、本日からパブリックセーフティテストのために利用可能にすることです。応募することができ、後でそれについて説明します。私たちはモデルがより高性能になるにつれて、安全性テストを真剣に受け止めてきました。この新しい能力レベルでは、安全性テストの手順に新しい部分を追加しようとしています。それは、私たちのテストを手伝いたい研究者向けのパブリックアクセスを許可することです。
これらのモデルをいつ一般公開する予定かについては後ほどお話ししますが、これらが何ができるのかをお見せし、そのパフォーマンスについてお話しするのがとても楽しみです。ちょっとした驚きもありますし、デモもお見せします。それではマークに引き継ぎたいと思います。
ありがとう、サム。私はマークと申します。OpenAIでリサーチを率いており、oの能力について少しお話ししたいと思います。oは非常に難しい技術的ベンチマークで本当に強力なモデルです。
まずコーディングベンチマークから始めましょう。ソフトウェアスタイルのベンチマークでは、実世界のソフトウェアタスクで構成されるsweet bench verifiedで、o3は71.7%の精度を達成しています。これはo1モデルより20%以上優れています。これは私たちが本当に効用のフロンティアを登っていることを示しています。
競技プログラミングについては、o1はcode forcesというコンテストコーディングサイトで1891のELOを達成しています。最も積極的な高テスト時計算設定で、ほぼ2727のELOを達成することができます。マークは実際に競技プログラミングをしていて、今でも指導していますよね。あなたの最高スコアはいくつでしたか?
comparable siteで私の最高は約2500でした。これは大変ですね。私たちのチーフサイエンティストのヤコフのスコアよりも良いですね。OpenAIには3000点台の人が1人いると思います。あと数ヶ月は楽しめそうですね。
このモデルはプログラミングで信じられないほどの能力を持っています。プログラミングだけでなく、数学でも同様です。競技プログラミングと同様に、競技数学のベンチマークでも非常に強力なスコアを達成しています。o3はAMYで96.7%の精度を達成し、o1の83.3%に対して優れています。エイミー、あなたの最高スコアは?
私は一度パーフェクトスコアを取りました。安全ですね。これは本当に、o3がUSA数学オリンピックの非常に難しい予選試験で、テストするたびにたった1問しか間違えないことを示しています。
もう一つの非常に難しいベンチマークがGPQ Diamondで、これはPhDレベルの科学の質問に対するモデルのパフォーマンスを測定します。ここでも87.7%という最先端の数字を達成しており、これはo1の78%のパフォーマンスより約10%優れています。これを理解するために、専門家のPhD保持者は通常、自分の専門分野で約70%を達成します。
これらのベンチマークから気づくかもしれませんが、多くのベンチマークで飽和に達しているか、近づいています。昨年は、フロンティアモデルを正確に評価するために、より難しいベンチマークの必要性が浮き彫りになりました。ここ数ヶ月で、いくつかのベンチマークが有望視されています。
特に言及したいのは、Epic AIのフロンティア数学ベンチマークです。以前お見せしたベンチマークよりもスコアが低く見えますが、これは今日、最も難しい数学のベンチマークと考えられているからです。これは新しい、未発表の、非常に難しいから極めて難しい問題で構成されているデータセットです。プロの数学者でも1問解くのに何時間も、場合によっては何日もかかるような問題です。今日、このベンチマークで2%未満の精度しか達成できていない提供物はありません。o3では積極的なテスト時設定で25%以上を達成できています。
Epic AIのフロンティア数学ベンチマークに加えて、もう一つ驚きがあります。ここでARCベンチマークについて話したいと思いますが、ARC財団の代表であるグレッグを招いて、このベンチマークについて話してもらいたいと思います。
サムとマーク、今日は招いていただきありがとうございます。皆さん、こんにちは。私はグレッグ・カマドで、ARC Prize財団の代表を務めています。ARC Prizeは、持続的なベンチマークを通じてAGIに向けた北極星となることをミッションとする非営利団体です。
最初のベンチマークであるARC AGIは、2019年にフランソワ・ショレによって「知性の測定」という論文で開発されましたが、5年間誰も破ることができませんでした。AIの世界では、それは何世紀もの時間のように感じられます。ARC AGIを打ち破るシステムは、汎用知能に向けた重要なマイルストーンとなるでしょう。今日、新しい最先端スコアを発表できることを嬉しく思います。
まず、ARC AGIが何であるかについてお話ししたいと思います。例をお見せしましょう。ARC AGIは入力例と出力例に関するものです。目標は、変換のルールを理解し、出力を推測することです。サム、ここで何が起きていると思いますか?
おそらく空いているスペースに濃い青い四角を置くということですね。
その通りです。これは人間にとって直感的に推測するのは簡単ですが、AIにとっては何が起きているのかを理解するのは驚くほど難しいのです。もう一つ難しい例を見てみましょう。マーク、あなたにこのタスクで何が起きているのか答えてもらいましょう。
それぞれの黄色い四角で、色のついた四角の数を数え、その数でボーダーを作成するということですね。
その通りです。ほとんどの人よりも早く答えられましたね。おめでとうございます。面白いことに、AIはこれまでこの問題を解くことができませんでした。人間のパネルがこれを解けることを確認したにもかかわらずです。
ARC AGIのユニークな点は、すべてのタスクが異なるスキルを必要とすることです。つまり、青い四角で角を埋めるような別のタスクは出題されません。それは意図的なものです。なぜなら、私たちはモデルがその場で新しいスキルを学ぶ能力をテストしたいからです。既に記憶していることを単に繰り返すのではなく、それが要点なのです。
ARC AGI バージョン1は、先端モデルで0%から5%に到達するのに5年かかりました。しかし今日、o3が新しい最先端スコアを達成したことを大変嬉しく思います。低計算設定でo3は、ARC AIのセミプライベートホールドアウトセットで75.7を達成しました。これは、パブリックリーダーボードの計算要件の範囲内で達成された非常に印象的なスコアで、新しい1位のエントリーとなります。おめでとうございます。
能力のデモンストレーションとして、o3により長く考えさせ、高計算にまで引き上げたところ、同じ隠れたホールドアウトセットで87.5%のスコアを達成することができました。これは特に重要です。なぜなら、人間のパフォーマンスが85%の閾値で同等だからです。これを超えることは大きなマイルストーンであり、これまでこれを達成したシステムやモデルをテストしたことはありませんでした。これはARC AGIの世界では新しい領域です。素晴らしいベンチマークを作ってくれてありがとうございます。
これらのスコアを見ると、私は自分の世界観を少し変える必要があることに気づきます。特にこのo3の世界では、AIが実際に何ができるのか、何が可能なのかについて、AIに対する直感を修正する必要があります。しかし、仕事はまだ終わっていません。これはまだAIの初期段階です。ARC AGIのような持続的なベンチマークが、進歩を測定し導くために必要です。その進歩を加速することに興奮していますし、来年OpenAIと協力して次のフロンティアベンチマークを開発することを楽しみにしています。
素晴らしいですね。これは私たちも長い間ターゲットにしてきたベンチマークで、ずっと念頭にありました。今後の協力を楽しみにしています。私たちは特定のものをターゲットにしなかったことは言及する価値がありますが、これは素晴らしいベンマークだと思います。パートナーシップに感謝します。これは楽しいものでした。
このモデルがこれほど優れた性能を示したにもかかわらず、ARC Prizeは2025年も継続します。詳細はARC pri.orgでご確認いただけます。
ありがとうございました。
では次に、o3ミニについてお話ししましょう。o3ミニは私たちが本当に興奮していることで、モデルをトレーニングしたホングが加わってくれます。
やあ、みなさん。私はフランで、OpenAIの推論を研究している研究者です。9月に私たちはo1ミニをリリースしました。これはo1ファミリーの効率的な推論モデルで、数学とコーディングにおいて、低コストでありながら世界最高レベルの能力を持っています。今回、o3と共に、o3ミニについてさらにお話しできることをとても嬉しく思います。これはo3ファミリーの全く新しいモデルで、新しいコスト効率の高い推論のフロンティアを定義します。
素晴らしいですね。今日はユーザーの皆さんには利用できませんが、私たちは安全性とセキュリティの研究者の方々にモデルへのアクセスを開放して、テストしていただくことにしています。数日前にAPIで適応的思考時間をリリースしましたが、o3ミニは低、中、高の3つの異なる推論努力オプションをサポートします。ユーザーは異なるユースケースに基づいて、自由に思考時間を調整することができます。例えば、より複雑な問題には長く考えさせ、より単純な問題には短く考えさせることができます。
では、o3ミニの最初のevalセットをお見せしましょう。左側にコーディングevalsを示しています。これはCode Forces ELOで、プログラマーの優秀さを測るものです。高いほど良いです。グラフで見てわかるように、思考時間を増やすとo3ミニのELOは上昇し、o1ミニを上回ります。中程度の思考時間でもo1よりも優れたパフォーマンスを達成できます。1桁のコストと速度で、同等以上のコードパフォーマンスを提供できます。o3ミニの高設定でもマークには数百ポイント及びませんが、それほど遠くはありません。私よりは多分良いでしょう。しかし、o1で提供できたものに比べて、コストとパフォーマンスの点で信じられないような進歩です。人々は本当にこれを気に入ると思います。
右側のプロットには、コストとCode Forces ELOのトレードオフの推定値を示しています。o3ミニが新しいコスト効率の高い推論フロンティアを定義していることは明らかです。o1と比較して、わずかなコストでより優れたパフォーマンスを達成しています。
では、o3ミニのライブデモをしたいと思います。低、中、高の3つの異なる思考時間をすべてテストできればと思います。まず問題を提示します。最初にo3ミニの高設定をテストしています。タスクは、コードジェネレーターと実行者をPythonで実装することです。このPythonスクリプトを実行すると、テキストボックスを含むUIを持つサーバーがローカルで起動します。テキストボックスでコーディングのリクエストを行うと、それがo3ミニのAPIに送信され、o3ミニのAPIがタスクを解決してコードを返します。そのコードはローカルのデスクトップに保存され、自動的にターミナルを開いて実行します。これはかなり複雑なタスクです。
出力は大きな三角形のコードです。このコードをサーバーにコピーして貼り付け、サーバーを起動すると、テキストボックスが表示されるはずです。はい、起動中です。素晴らしい、コーディングプロンプトを入力できるUIができました。簡単なものを試してみましょう。「PRINTと乱数」を入力して送信します。これはo3ミニの中設定に送信されているので、かなり速いはずです。このターミナルで...41が魔法の数字ですね。生成されたコードをデスクトップのローカルスクリプトに保存し、41をプリントしました。他に試してみたいタスクはありますか?
自身のGPQの数値を取得させてみてはどうでしょうか?素晴らしい提案です。まさに期待していた通りです。昨日たくさん練習しました。
コードをコピーしてコードUIに送信してみましょう。このタスクでは、モデルに低推論努力設定でこの難しいGPQデータセットにおけるo3ミニの評価を依頼しています。モデルはまずこのURLから生データをダウンロードし、どの部分が質問で、どの部分が答え、どの部分が選択肢なのかを理解する必要があります。そして全ての質問を作成し、モデルに回答させ、結果を解析して採点する必要があります。これは驚くほど速いですね。低推論努力設定のo3ミニを呼び出しているので、非常に速いのです。
GPQは難しいデータセットです。おそらく196の簡単な問題と2つの本当に難しい問題が含まれています。待っている間に、リクエストをもう一度見せてもらえますか?
あ、結果が返ってきました。61.6%ですね。これは低推論努力のモデルとしては実際にかなり速く、1分以内で完全な評価を行いました。モデルに自身を評価させるというのは本当にクールですね。
そうですね。私たちが今行ったことをまとめると、モデル自身が最初に作成したコードジェネレーターと実行者を通じて、UIからこの難しいGPQセットでの自己評価を行うスクリプトを書くようモデルに依頼したのです。来年はあなたに来てもらって、モデルに自身の改善を依頼する必要がありそうですね。次回はモデルに改善を依頼してみましょう。たぶんそうしないでしょうが。
Code ForcesとGPQの他に、このモデルはかなり優れた数学モデルでもあります。このプロットで示すように、AM 2024データセットでo3ミニの低設定はo1ミニと同等のパフォーマンスを達成し、o3ミニの中設定はo1よりも優れたパフォーマンスを達成しています。実線のバーがo1のものです。o3ミニの高設定でさらにパフォーマンスを押し上げることができます。
右側のプロットでは、匿名化されたoプレビュートラフィックでレイテンシーを測定すると、o3ミニの低設定はo1ミニのレイテンシーを大幅に削減し、GPT-4とほぼ同等の1秒未満のレイテンシーを達成しています。おそらく瞬時の応答です。また、o3ミニの中設定はo1の半分のレイテンシーです。
さらに興奮するようなeval結果をお見せしましょう。それはAPIの機能です。開発者コミュニティから、o1ミニシリーズモデルで関数呼び出し、構造化出力、開発者メッセージをサポートしてほしいという要望を多く受けています。o3ミニはo1と同様にこれらの機能をすべてサポートします。特筆すべきは、ほとんどのevalでGPT-4と同等以上のパフォーマンスを達成し、開発者により費用対効果の高いソリューションを提供することです。
数日前に実行した本当のGPQ Diamondのパフォーマンスは実際に62%でした。基本的にモデルに自己評価を依頼したわけですね。次回は手動で評価を依頼する代わりに、モデルに自動的に評価を行わせるべきですね。
以上がo3ミニについての説明です。来年にはユーザーの皆さんがより良いユーザー体験を得られることを願っています。
素晴らしい仕事ですね。ありがとう。
皆さんが自分の手で試すことを楽しみにしているのはわかっています。私たちはモデルの上に安全性の介入を実装するために懸命に取り組んでおり、現在多くの内部安全性テストを行っています。今回新しく行うのは、本日からo3ミニ、そして最終的にo3の外部安全性テストへのアクセスを開放することです。
安全性研究者やセキュリティ研究者として早期アクセスを得るにはどうすればよいでしょうか?私たちのウェブサイトにアクセスすると、画面に表示されているようなフォームが見つかります。このフォームへの申請は随時受け付けており、1月10日に締め切られます。ぜひ応募してください。皆さんがどのようなことを探究し、どのようなジェイルブレイクやその他の発見をするのか、楽しみにしています。
もう一つ私が話したいことがあります。それは昨日か今日公開した新しいレポートで、私たちの安全性プログラムを進展させるものです。これは熟考的アラインメントと呼ばれる新しい技術です。通常、モデルに安全性トレーニングを行う場合、安全なものと安全でないものの境界を学習しようとします。通常は、これは安全なプロンプトと安全でないプロンプトの純粋な例を示すことで行われます。
しかし今では、モデルの推論能力を活用して、より正確な安全性の境界を見つけることができます。この熟考的アラインメントと呼ばれる技術により、安全性の仕様を取り、プロンプトについて推論し、それが安全なプロンプトかどうかを判断することができます。多くの場合、推論の過程で「このユーザーは私を騙そうとしている」や「隠された意図が表現されている」といったことを発見します。プロンプトを暗号化しようとしても、推論によってそれを解読することができるのです。
主な結果は、この図に示されています。x軸は拒否ベンチマークでのパフォーマンス、y軸は過剰拒否を示しています。右側が良い結果を示します。これは、何かを拒否すべき時を正確に判断する能力と、レビューすべき時を判断する能力です。通常、これら二つの指標にはトレードオフがあると考えられ、両方で優れた結果を出すのは本当に難しいのです。
しかし、熟考的アラインメントを使用すると、右上の二つの緑の点を得ることができます。一方、赤と青の点は以前のモデルのパフォーマンスを示しています。私たちは本当に推論を活用して、より良い安全性を得始めています。これは安全性に関する本当に素晴らしい結果だと思います。
まとめると、o3ミニとo3の安全性テストへの応募をお待ちしています。これらのモデルのテストを支援していただける追加のステップとして。o3ミニは1月末頃のローンチを予定しており、完全なo3はその直後を予定しています。より多くの人々が安全性テストを手伝ってくれれば、それだけ確実にそれを達成できます。ぜひチェックしてください。
私たちにとって、これは本当に楽しいものでした。皆さんにも楽しんでいただけたことを願っています。メリークリスマス。メリークリスマス。メリークリスマス。