見出し画像

【緊急収録】OpenAI o3は人間を超えた これがAGIではないか?

人間の博士号課程の取得者の点数を大きく超えてきた。

私の判断は頭と目は完全に人間を超えたが、そのままでは掃除も宿題もしないのでAGIとは認めない。耳を持つエージェントになって初めてAGIになる。

タイトル: "OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12"


全放送内容

おはようございます、今日は皆さんにとってエキサイティングな発表があります。12日、最初の推論モデルである01を発表し、この12日間のイベントを始めました。人々がそれを使って何をしているのかを見るのは素晴らしいことであり、どれほど多くの人がそれを気に入っているかを聞くのは非常に嬉しいことです。
私たちはこれを、これらのモデルを使って、高度な推論を必要とするますます複雑なタスクを実行できる、AIの次の段階の始まりと捉えています。そして、このイベントの最終日として、1つのフロンティアモデルから 次のフロンティアモデルに移行するのが面白いだろうと考えました。
今日、その次のフロンティアモデルについて話します。論理的に考えれば、それはおそらくO2と呼ばれるべきでしょうが、テリカの友人たちへの敬意と、OpenAIが本当に名前付けが下手であるという伝統から、実際にはO3と呼ばれることになりました。
今日は、2つのモデルを発表します。03とO3 miniです。03は非常に非常に賢いモデルです。O3 miniは信じられないほど賢いモデルですが、それでもパフォーマンスとコストの面で非常に優れています。まず悪い知らせからすると、 今日はこれらを一般公開しません。良い知らせは、今日から公共安全テストのために利用可能にすることです。申し込むことができ、後でそれについてお話しします。モデルの能力が向上するにつれて、安全テストを真剣に捉えてきました。
この新しいレベルの能力では、私たちをテストするのを手伝いたい研究者のための公共アクセスを許可するという、安全テスト手順の新しい部分を追加したいと考えています。これらのモデルが一般的に利用可能になる時期については、最後に詳しくお話ししますが、 モデルが何ができるかをお見せするのが楽しみです。そのパフォーマンスについて話すために、少しサプライズを用意しました。いくつかのデモをお見せします。それでは、まずマークに話してもらいましょう。どうもありがとう、サム。私の名前はマークです。OpenAIで研究をリードしています。Oの能力について少しお話ししたいと思います。Oは、非常に難しい技術ベンチマークで非常に強力なモデルです。まず、コーディングのベンチマークから始めたいと思います。それらを表示していただけますか?ソフトウェアスタイルのベンチマークでは、 実世界のソフトウェアタスクで構成されるスイートベンチの検証済みがあり、O3は約71.7%の精度を達成しており、これは01モデルよりも20%以上優れています。これは、私たちが実用性のフロンティアを本当に登っていることを示しています。また、競技プログラミングでは、01はこの競技プログラミングサイト、コードフォースで、最も積極的なハイテスト時間計算設定で、約1891のELOを達成しています。ここでは、ほぼ2727のELOを達成しています。マークは実際、競技プログラマーであり、今でも 競技プログラミングを指導しています。非常に非常に優れています。

あなたの最高記録は何でしたか?確か、私の最高記録は、同等のサイトで約2500でした。それは難しいですね。私たちのチーフサイエンティスト、ヤコブのスコアよりも優れています。OpenAIには3000点以上の人が1人います。そうですね、数ヶ月楽しむ時間が あるといいですね。数ヶ月は楽しめるといいですね。素晴らしいですね。このモデルはプログラミングにおいて信じられないほど優れています。プログラミングだけでなく、数学においても優れています。

競技プログラミングと同様に、競技数学のベンチマークでも、非常に高いスコアを達成しています。O3は、83.3%のパフォーマンスの01に対して、約96.7%の精度を達成しています。あなたの最高のAmyスコアは何ですか?私は一度満点を取ったので大丈夫ですが、これは、O3が 米国数学オリンピックの非常に難しい準備試験でテストしたときに、多くの場合、1つの質問を間違えるだけであることを示しています。もう1つ、非常に難しいベンチマークがあります。それは、GPQダイヤモンドと呼ばれており、博士号レベルの科学の質問に対するモデルのパフォーマンスを測定します。ここでも、87.7%という最新の数値が出ています。これは、78%であった01のパフォーマンスよりも約10%優れています。これを視点に入れると、専門家の博士号取得者は、通常、自分の得意分野で約70%を取得しています。ここから気づくかもしれないことの1つは、これらのベンチマークのいくつかで飽和に達しているか、飽和に近づいていることです。したがって、過去1年は、フロンティアモデルがどこにあるかを正確に評価するために、本当に難しいベンチマークが必要であることを強調しています。ここ数ヶ月で、いくつか有望なものが出てきました。特に1つ、Epic AIのフロンティア数学ベンチマークを紹介したいと思います。ここで、スコアは以前のベンチマークよりも大幅に低く見えます。これは、今日、最も難しい数学ベンチマークと考えられているためです。これは、新規で未発表であり、非常に難しいから極めて難しいまでの非常に難しい問題を網羅したデータセットです。

プロの数学者でさえ、これらの問題を1つ解決するのに数時間、あるいは数日かかるでしょう。そして今日、すべての製品は、このベンチマークで2%未満の精度しか達成していませんが、O3では、積極的なテスト時間設定で、25%以上を達成しています。素晴らしいです。Epic AIのフロンティア数学ベンチマークに加えて、もう1つサプライズがあります。ここで、アークベンチマークについてお話ししたいと思います。アーク財団の会長であるグレッグを お招きして、このベンチマークについてお話していただきたいと思います。素晴らしいです。サムとマーク、今日はどうもありがとうございました。皆さん、こんにちは。私の名前はグレッグ・カマドです。アークプライズ財団の会長です。アークプライズは、ベンチマークを通じて、そしてその間にAGIに向けた北極星となることを使命とする非営利団体です。私たち初のベンチマークであるアークAGIは、2019年にフランソワ・ショレによって、彼の知性の尺度に関する論文で開発されました。しかし、AIの世界では何世紀にも感じられるほど、5年間無敗です。

アークAGIを打ち破るシステムは、汎用知能に向けた重要なマイルストーンとなるでしょう。しかし、今日は新しい最新のスコアを発表できることを嬉しく思っています。その前に、アークAGIとは何かについてお話したいと思います。ここで、例をお見せしたいと思います。アークAGIは、入力例と出力例を持つことについてです。それらは良い、良いですね。入力例と出力例です。目標は、変換のルールを理解し、出力でそれを推測することです。サム、ここでは何が 起こっていると思いますか?


おそらく、空のスペースに濃い青色の正方形を置いているのではないでしょうか?はい、その通りです。それは人間が直感的に推測するのは簡単ですが、AIが何が起こっているかを理解するのは驚くほど難しいのです。

ここでは、もう1つ難しい例をお見せしたいと思います。マーク、あなたに質問しますが、このタスクでは何が起こっていると思いますか?

はい、これらの黄色の正方形それぞれを取り、色の付いた正方形の数を数え、その数の枠線を作成します。それはまさに その通りです。

ほとんどの人よりもはるかに速いです。おめでとうございます。興味深いのは、AIはこの問題をこれまで解決できていないということです。人間のパネルが実際にそれを行うことができたことを検証したにもかかわらずです。AR AGIのユニークな点は、すべてのタスクに明確なスキルが必要であるということです。つまり、コーナーを青い正方形で埋める必要がある別のタスクは存在しません。しかし、私たちは意図的にそれを行っています。その理由は、モデルの 新しいスキルをその場で学習する能力をテストしたいからです。すでに記憶したことを繰り返すだけではなく、それがポイントなのです。アークAGIバージョン1は、0%から5%になるまでに5年かかりましたが、今日、O3が新しい最新のスコアを達成したことを発表できて非常に嬉しく思っています。これは、低計算量で検証済みであり、O3の場合、アークAIの半公開ホールドアウトセットで75. 7を達成しました。これは、公開リーダーボードの計算要件内であり、RKg Pubの新しいナンバーワンエントリーであるため、非常に印象的です。おめでとうございます。どうもありがとう。さて、能力実証として、O3に長く考えさせ、計算量を増やした場合、O3は同じ非表示ホールドアウトセットで85. 7%を達成しました。特に重要なのは、.5、すみません、87.5ですね。これは特に重要なことです。なぜなら、人間のパフォーマンスは85%のしきい値で同等であるからです。これを超えるということは、重要なマイルストーンであり、以前にこれを行ったシステムやモデルをテストしたことはありません。したがって、これはrcgiの世界では新しい領域です。おめでとうございます。このような素晴らしいベンチマークを作成してくれておめでとうございます。これらのスコアを見ると、自分の世界観を少し変えなければならないと感じます。AIが実際に できることと、その能力について、自分のAIの直感を修正する必要があります。特にこのO3の世界ではそうですが、作業はまだ終わっていません。これらはまだAIの初期段階です。したがって、進捗状況を測定し、導くためには、アークAGIのような、より持続的なベンチマークが必要です。そして、その進捗を加速できることを嬉しく思っています。また、来年、Open AIと提携して、次のフロンティアベンチマークを開発できることを嬉しく思っています。素晴らしいです。それはまた、私たちが目標としてきたベンチマークであり、長い間頭の中にあったので、今後一緒に取り組めることを嬉しく思っています。具体的には行いませんでしたが、 目標としており、素晴らしいベンチマークだと思います。ジェネラルですが、このパートナーシップに本当に感謝しています。

これは楽しいものでした。もちろんです。そして、これほど素晴らしい成果を上げたにもかかわらず、ARプライズは2025年も継続し、誰でもARC pri.orgで詳細を確認できます。どうもありがとうございました。はい、それでは次に、O3 miniについてお話します。O3 miniは、本当に楽しみにしているものです。モデルをトレーニングしたホンギューが、ここに来て一緒に参加します。やあ、こんにちは。みんな、こんにちは。私はホン・ユーランです。Open エアの推論に関する研究者です。9月に、効率的な推論モデルである01 miniをリリースしました。それは、01ファミリーであり、低コストながら、おそらく世界で最高の数学とコーディングが可能です。そして今回、03とともに、03ファミリーの最新モデルである03 miniについてお話しできることを嬉しく思います。これは、本当にコスト効率の高い新しい推論のフロンティアを定義します。素晴らしいです。はい、今日、ユーザーは利用できませんが、モデルへのアクセスを、 安全性とセキュリティの研究者に開放し、モデルをテストします。数日前にAPIで適応思考時間機能をリリースしたため、O3 miniは、低、中、高の3つの異なる推論オプションをサポートします。したがって、ユーザーは、さまざまなユースケースに基づいて、思考時間を自由に調整できます。たとえば、複雑な問題に対してはモデルに長く考えさせ、単純な問題に対しては短く考えさせることができます。それでは、O3の最初の評価セットをお見せしたいと思います。 miniです。左側には、コーディングの評価を示しています。これは、プログラマーの能力を測るコードフォースのELOのようなもので、数値が大きいほど優れています。グラフでわかるように、思考時間を増やすにつれて、O3 miniは、常にO1 miniよりも優れた結果が得られます。また、中程度の思考時間では、O1よりもさらに良い結果が得られます。したがって、1桁以上高速でコストを抑えながら、同じコーディングパフォーマンスを実現できるか、さらに優れた結果も実現できるでしょう。そうですね。 O3 miniのハイは、まだマークより数百ポイント低いですが、それほど遠くはありません。おそらく、私よりも優れていますね。しかし、これは、O1で提供できたものよりも、コストパフォーマンスが信じられないほど優れています。人々はこれを気に入ると思います。はい、そう願っています。右側のグラフでは、推定コストとコードフォースELOのトレードオフを示しています。したがって、O3 miniはコーディングにおいてコスト効率の高い新しい推論フロンティアを定義していることは明らかです。つまり、O1よりも優れたパフォーマンスを、 低コストで実現しています。素晴らしいです。そうは言っても、O3 Miniのライブデモを実施したいと思います。モデルの低、中、高の3つの異なる思考時間を試すことができることを願っています。問題をペーストしましょう。まず、O3 miniのハイを試します。タスクは、モデルにPythonを使用してコードジェネレーターと実行プログラムを実装させることです。このPythonスクリプトを実行すると、サーバーが起動します。 ローカルで、テキストボックスを含むUIが開き、テキストボックスでコーディングリクエストを行うことができます。リクエストをO3 mini APIに送信すると、Al mini APIがタスクを解決し、コードを返します。次に、コードをデスクトップにローカルに保存し、ターミナルを開いてコードを自動的に実行します。これは、非常に複雑なタスクです。非常に複雑な処理ですね。大きな三角形のコードを出力します。コードをコピーしてサーバーに貼り付け、サーバーを起動すると、テキストボックスが表示されるはずです。 起動中です。はい、そうです。起動するはずです。わかりました。素晴らしい。コーディングプロンプトを入力できるUIがあります。簡単なもの、例えば、Open the eyeと乱数を入力してみましょう。送信します。O3 mini mediumにリクエストを送信しています。これはかなり速いはずです。この4つのターミナルで、はい、41がマジックナンバーですね。生成されたコードを、デスクトップ上のローカルスクリプトに保存して、Open 41を出力しました。他に試してみたいタスクはありますか?  モデル自身のGP QAの数値を調べてもらえませんか?それは素晴らしいリクエストですね。まさに予想通りでした。昨日、たくさん練習しました。さて、コードをコピーして、コードUIに送信しましょう。このタスクでは、この難しいGPQデータセットで、モデルに低い推論労力でO3 miniを評価するように求めました。モデルはまず、このURLから生ファイルをダウンロードする必要があります。次に、どの部分が質問で、どの部分が、どの部分が答えで、どの部分がオプションであるかを把握する必要があります。 次に、すべての質問を定式化し、モデルに回答を求め、結果を解析して採点する必要があります。それは実際に驚くほど速いです。はい、実際には非常に高速です。O3 miniを低い推論労力で呼び出しているためです。はい、どうなるか見てみましょう。2つのタスクは本当に難しいですね。長いテールですね。問題を始めましょう。はい、gは難しいデータセットです。はい、196個の簡単な問題と2個の本当に難しい問題が含まれています。待っている間に、リクエストが何であったか もう一度お見せしますか?はい、実際には結果を返します。61.6%ですね。61.6%ですか?これは、低い推論労力のモデルです。実際には非常に高速です。1分以内に完全に評価します。モデルにこのように自分自身を評価させるのは、非常にクールですね。まさにその通りです。そして、今やったことを要約すると、モデルに、UIから、この難しいGQセットで自分自身を評価するためのスクリプトを書くように求めました。 モデル自身が最初に作成したこのコードジェネレーターと実行プログラムからです。来年は、あなたが来て、モデルに自分自身を改善するように要求する必要があります。はい、次回はモデルに自分自身を改善するように要求しましょう。そうではないかもしれません。さて、コードフォースとGPQに加えて、モデルは非常に優れた数学モデルでもあります。このグラフでは、このam 2024データセットで、O3 Min LowはO1 miniと同等のパフォーマンスを達成し、O3 mini MediumはO1よりも優れたパフォーマンスを達成しています。パスルのあるものをチェックし、O3でパフォーマンスをさらに向上させることができます。 mini highです。右側のグラフでは、この匿名化されたoプレビューのトラフィックでの待ち時間を測定すると、O3 mini lowがO1 miniの待ち時間を大幅に短縮していることがわかります。ほぼ1秒未満でgbt 40と同等の待ち時間を実現しています。したがって、ほぼ瞬時に応答できます。また、Mei mediumはo1の待ち時間の半分です。そして、もう1つ、非常に楽しみにしている評価セットは、API機能です。開発者コミュニティから、ミニシリーズモデルのすべてで、関数呼び出し、構造化された出力、開発者メッセージなどのサポートを求めるリクエストを数多くいただいています。そしてここで、O3 miniは、O1と同じように、これらの機能をすべてサポートします。特に、ほとんどの評価で、O1よりも同等以上のパフォーマンスを達成しており、開発者にとってより費用対効果の高いソリューションを提供しています。素晴らしいです。数日前に実行した実際のgbqダモンドのパフォーマンスを調べると、実際にはlも62%です。基本的にモデルに自分自身を評価させていますね。そうです。次回は、 モデルに評価を自動的に実行させるべきですね。そうではなくてですね。ということで、O3 Meiについては以上です。来年、ユーザーがより良いユーザーエクスペリエンスを得られることを願っています。素晴らしい仕事です。はい、ありがとうございます。

さて、皆さんもこれを早く自分の手で試したいと思っているでしょう。私たちは、モデルの上にいくつかの安全対策を施すために、懸命に取り組んでいます。現在、多くの社内安全テストを実施しています。しかし、今回新しい試みとして、 O3 miniで開始し、最終的にはO3でも、このモデルを外部の安全テストにも開放します。

安全研究者やセキュリティ研究者として、早期アクセスを得るにはどうすればよいですか?

当社のウェブサイトにアクセスすると、画面に表示されているようなフォームが表示されます。このフォームへの応募はローリング形式で、1月10日に締め切られます。皆様からの応募をお待ちしております。これでどのようなことが探求できるか、どのような脱獄やその他のことを見つけられるかを楽しみにしています。素晴らしいです。もう1つ、 昨日か今日に発表したばかりの新しいレポートについてお話ししたいと思います。

これは、当社の安全プログラムを推進するものであり、熟慮的アライメントと呼ばれる新しい手法です。通常、モデルの上で安全トレーニングを行う場合、安全なものと安全でないものの決定境界を学習しようとします。そして通常、それは、安全なプロンプトとは何か、安全でないプロンプトとは何かを示す、純粋な例を通じて行われます。しかし、モデルから得られた推論能力を活用して、より 正確な安全境界を見つけることができます。そして、熟慮的アライメントと呼ばれるこの手法により、安全仕様を取得し、モデルがプロンプトについて推論し、また、これが安全なプロンプトであるかどうかを判断できます。多くの場合、推論の中で、このユーザーが私をだまそうとしているとか、隠されているこのような意図を表明しているということが明らかになります。したがって、プロンプトを解読しようとしても、推論がそれを打ち破ることがよくあります。そして、ここで示されている図に主な結果が示されています。 x軸に拒否ベンチマークでのパフォーマンスを、y軸に拒否を上回るパフォーマンスを示しています。ここでは、右側が良い結果です。これは、何かを拒否すべきかどうかを正確に判断する能力と、何かをレビューすべきかどうかを判断する能力です。通常、これらの2つの指標には、何らかのトレードオフがあると考えられます。これは本当に難しいことです。はい、本当に難しいです。しかし、熟慮的アライメントでは、右上にある2つの緑色のポイントを取得できるようです。一方、以前のモデルの赤と青の ポイントは、以前のモデルのパフォーマンスを示しています。したがって、安全性に推論を活用し始め、安全性向上を実現していると言えます。これは、安全性における非常に素晴らしい結果だと思います。はい、素晴らしいです。

さて、要約すると、O3 miniとO3を適用してください。このモデルのテストにご協力いただける場合は、安全性テストをご利用ください。

追加のステップとして、1月下旬頃にO3 miniをリリースし、その後すぐにフルO3をリリースする予定ですが、安全テストにご協力いただける人が増えるほど、 その目標を達成できる可能性が高まります。ぜひご覧ください。そして、このイベントにご参加いただきありがとうございました。皆様にとって楽しいものであったことを願っています。メリークリスマス。メリークリスマス。メリークリスマス。[音楽]

OpenAI o3. o3 mini 解説

OpenAIは、大幅に強化された推論能力を持つ新たな言語モデル「o3」と、その軽量版「o3 mini」を発表しました。o3は、コーディング、数学、複雑な論理問題など、様々なベンチマークにおいて従来モデルを大きく上回る性能を示し、特に「ARC」と呼ばれる高度な汎用知能テストで人間レベルの性能に迫りました。o3 miniは、o3と同等の能力を低コストで実現する点が特徴です。現在、安全性を確認するため、安全研究者への限定公開を行っており、将来的には一般公開を予定しています。 発表では、安全性の向上に推論能力を活用する「熟慮的アライメント」という新たな手法についても紹介されました。

o3とo3-miniの能力向上は、AIのさまざまな分野で新たな可能性を開きます。

まず、コーディング能力が大幅に向上しています。

  • o3は、ソフトウェアスタイルのベンチマークで約71.7%の精度を達成し、これは01モデルよりも20%以上優れています。

  • 競技プログラミングでは、o3はコードフォースで約2727のELOを達成しており、01の約1891 ELOを大幅に上回っています。

  • o3 miniは、思考時間を調整することで、01 miniよりも優れたコーディングパフォーマンスを、より低いコストで実現できます。

次に、数学能力も向上しています。

  • 競技数学のベンチマークでは、o3は96.7%の精度を達成し、01の83.3%を大きく上回っています。

  • 米国数学オリンピックの非常に難しい準備試験では、o3は多くの場合、1つの質問を間違えるだけです。

  • Epic AIのフロンティア数学ベンチマークでは、o3は25%以上の精度を達成しており、これは以前のモデルや他の製品が2%未満しか達成できていなかったことを考えると、非常に高い数値です。

  • o3 miniは、am 2024データセットで、o1 miniと同等以上の数学的パフォーマンスを達成しています。

さらに、推論能力も進化しています。

  • GPQダイヤモンドと呼ばれる博士号レベルの科学の質問に対するベンチマークで、o3は87.7%の精度を達成しており、これは01の78%よりも約10%優れています。

  • アークAGIベンチマークでは、o3は低計算量で75.7%、計算量を増やすと87.5%を達成しており、これは人間のパフォーマンスのしきい値である85%を超えています。

これらの能力向上は、AIがより複雑で難しいタスクをこなせるようになることを意味します。

  • o3は、プログラミング、数学、科学などの分野で、専門家レベルのパフォーマンスを発揮する可能性があります。

  • o3 miniは、低コストで高いパフォーマンスを実現し、さまざまなユースケースに対応できます。

  • 特に、アークAGIベンチマークでの結果は、AIが新しいスキルをその場で学習し、記憶したことを繰り返すだけでなく、推論に基づいて問題を解決する能力を示しています。

また、安全対策にも焦点が当てられています

  • o3とo3 miniは、公共安全テストのために公開されており、安全研究者やセキュリティ研究者からのフィードバックを求めています。

  • 熟慮的アライメントと呼ばれる新しい手法により、モデルの推論能力を活用して、より正確な安全境界を特定できるようになりました。

これらの進歩により、AIは、より広範な問題解決、高度な推論、そして専門知識を必要とする分野での活用が期待されます。

いいなと思ったら応援しよう!