
OpenAIの新モデルo3が次元を超えた進化を遂げた!
6,856 文字
多くの方がすでにご存知かと思いますが、OpenAIが12日間の「ship miss」における最後の贈り物としてo3を発表しました。このモデルはあらゆるベンチマークを完全に凌駕しており、後ほど詳しく説明しますが、AGI(人工汎用知能)が実現したことを示す証拠となり得るARK AIチャレンジにおいて87.5%のスコアを記録しました。
まず、「o2はいつ発表されたの?まだo1の段階だと思っていたけど」と思われるかもしれません。ご心配なく、o2のリリースを見逃したわけではありません。こちらに記載されているように、この新モデルがo3と呼ばれているのは、電話会社O2との著作権の問題を避けるためであり、またCEOのサム・アルトマンによれば、同社には「名前付けが本当に下手だという伝統がある」からだそうです。
それでは、ベンチマークの詳細に入っていきましょう。ちなみに、Rowan Chungがこれら全てをXの1つの投稿にまとめてくれました。彼のフォローをお勧めします。
見てわかる通り、最も難しい高校レベルの数学問題で構成されるAIMベンチマークで96.7%のスコアを記録しています。これはo1と比較して13.4%、o1プレビューと比較して40%のパフォーマンス向上です。参考までに、GPT-4はこのベンチマークで13.4%しかスコアを記録していません。
また、PhD(博士)レベルの科学的質問で構成されるGPQAベンチマークでも大幅に高いスコアを記録しています。このベンチマークにおける人間の専門家のスコアは約70〜74%(オンラインで様々な回答を見つけました)ですが、これはすでにo1とo1プレビューで超えられており、現在o3は87.7%を記録し、新しいベンチマークを作る必要があるレベルに達しています。
次にEpoch AI Frontierの数学ベンチマークにおけるパフォーマンスについてですが、25.2%のスコアを記録し、これまでの最高記録はわずか2%でした。このベンチマークが実際に何を意味するのか、より詳しい文脈を理解するために、Epoch AIのウェブサイトでの一般的な説明を見てみましょう。
これは数ヶ月前に作られた非常に新しいベンチマークであることに注意してください。前例のない難しさを持ち、各問題は専門の数学者でも何時間もの作業を要します。GPT-4やGeminiを含む今日の最も高度なAIシステムでさえ、2%未満しか解くことができません。
真の評価として、全ての問題が新規で未発表であり、既存のベンチマークを悩ませているデータ汚染の懸念を排除しています。さらに、数学的な深さとして、60人以上の数学者との協力のもと、代数幾何学からツェルメロ・フレンケル集合論まで、現代数学の全スペクトルをカバーしています。
私にはツェルメロ・フレンケル集合論が何なのかわかりませんが、おそらく非常に複雑で難しいものに違いありません。ウェブサイトのこれら3つのポイントから、このベンチマークは本物のようです。
フィールズ賞受賞者で、分野で最も優れた頭脳の一人とされているテレンス・タオのような優れた数学者でさえ、「これらは非常に難しい。少なくとも数年はAIに抵抗するだろう」と述べています。そしてこれが数ヶ月前に作られたことを思い出してください。
25.2%という驚異的なパフォーマンスに戻ると、これはo3モデルが独自のリーグにいることを明確に示しています。少なくとも数学において、これは真に次元を超えた進化であり、パフォーマンスの大きな飛躍です。通常、この能力は他の分野にも転移します。
これは、コーディングベンチマークでのパフォーマンスを見ると明らかです。実世界のソフトウェアエンジニアリングの問題を解決する能力をテストするSWE-bench-verifiedで71.7%を記録し、これもo1とo1プレビューと比較して大きな飛躍です。
また、Code Forcesベンチマークで2727点を記録しており、これは人間の競技プログラマーとして世界175位相当のスコアです。つまり、このo3モデルは異常なレベルにあるということです。
もちろん、ベンチマークだけが全てを物語るわけではありませんが、サム・アルトマンが最近予測した「2025年までに全てのベンチマークを飽和させる」という発言は、正直なところ、現実的に思え始めています。
また、多くの議論を巻き起こしているARK AGIチャレンジで87.5%のスコアを記録しましたが、それについて触れる前に、OpenAIの研究者ノーアン・ブラウンがXで述べたように、o1の発表からわずか3ヶ月でo1からo3(技術的にはo2であるべき)に進化したことを指摘しなければなりません。
GPT-2からGPT-3、そしてGPT-3からGPT-4への進化には、それぞれ少なくとも1年かかったことを考えると、この進化は驚異的です。ツイートでは「この軌道は継続すると信じる理由が十分にある」とも述べています。
推論時計算(テスト時計算)という新しいスケーリングパラダイムは、GPTモデルシリーズが基づいていた事前学習(学習時計算)のスケーリングよりもはるかに速いようです。
サム・アルトマンもXの投稿で、多くのコーディングタスクにおいて、o3 miniはo1を大幅なコスト削減で上回るパフォーマンスを示すと述べています。この傾向は続くと予想されますが、指数関数的に多くのお金をかけることで限界的なパフォーマンス向上が得られるというのは非常に奇妙です。
つまり、これらのモデルは安価になっているだけでなく、モデルにより多くのお金をかけるほど性能が向上するということです。これがまさに新しい推論スケーリングパラダイムです。モデルに考える時間を与えれば与えるほど、正しい答えを得られる可能性が高くなり、モデルに考える時間を与えるコストは指数関数的に減少しています。
では、これらの新しいモデルが数ヶ月ごとに登場する段階に来ているわけですが、これは安全なのでしょうか?判断は難しいところですが、o3プレビューの公式発表で、文字通り安全性研究者を募集していることからもわかります。
アルトマンはXでの別の投稿でも、「安全性研究者の方は、o3 miniとo3のテストを手伝うことを検討してください。一般公開に向けて準備を進めることに期待しています」と、この点を強調しています。OpenAIが安全性研究者を探していることは、良いことであり、また驚くべきことですが、私にとってはこれが予想以上に速く進歩していることを示す明確な兆候です。
最後に、先ほど簡単に触れたARK AGIチャレンジについて話しましょう。先述の通り、o3は87.5%を記録し、競合を大きく引き離しています。このベンチマークをご存じない方のために、ARK賞財団の代表グレッグ・カマドが、このベンチマークとo3の87.5%というスコアがなぜそれほど重要なのかを説明しています。
「こんにちは、私はグレッグ・カマドで、ARK賞財団の代表を務めています。ARK賞は、持続可能なベンチマークを通じてAGIへの道標となることをミッションとする非営利団体です。
私たちの最初のベンチマークであるARC AGIは、2019年にフランソワ・ショレが『知能の測定について』という論文で開発しました。しかし、5年間誰も打ち破ることができませんでした。AI業界では、それはまるで何世紀も経ったかのように感じられます。
ARC AGIを打ち破るシステムは、汎用知能への重要なマイルストーンとなるでしょう。そして今日、新しい最高記録を発表できることを嬉しく思います。
しかし、その前にARC AGIとは何かについて説明させてください。ここで例を見せたいと思います。ARC AGIは全て入力例と出力例に関するものです。変換のルールを理解し、出力を予測することが目標です。
サム、ここで何が起こっているか分かりますか?」
「おそらく空いているスペースに濃い青い四角を置くのでしょう」
「はい、その通りです。これは人間には直感的に理解しやすいですが、AIにとっては何が起こっているのかを理解するのが驚くほど難しいのです。もう一つ、より難しい例を見せましょう。
マーク、あなたに聞いてみましょう。このタスクで何が起こっているのでしょうか?」
「これらの黄色い四角それぞれを取り、そこにある色付きの四角の数を数え、その数で枠を作るのですね」
「その通りです。そして多くの人よりも速く理解できましたね。おめでとうございます。興味深いのは、私たちが人間のパネルでこの問題が解けることを確認しているにもかかわらず、AIはこの問題を解くことができなかったということです。
ARC AGIのユニークな点は、各タスクが異なるスキルを必要とすることです。つまり、青い四角の角を埋めるような別のタスクは出題されません。これは意図的なもので、モデルが新しいスキルをその場で学習する能力をテストしたいからです。単に記憶したことを繰り返すのではなく、それが重要なのです。
ARC AGI バージョン1は、最先端のモデルで0%から5%に到達するまでに5年かかりました。しかし今日、o3が新しい最高記録を達成したことを発表できることを大変嬉しく思います。
低計算量でo3は、ARC AIのセミプライベートホールドアウトセットで75.7%を記録しました。これは私たちのパブリックリーダーボードの計算要件内であり、非常に印象的な成績です。これがARC AGIパブリックの新しい1位のエントリーとなります。おめでとうございます。
能力のデモンストレーションとして、o3により長い思考時間を与え、高計算量にまで引き上げたとき、同じ隠れホールドアウトセットで87.5%のスコアを記録しました。
これは特に重要です。なぜなら、人間のパフォーマンスは85%の閾値で比較可能だからです。これを超えることは大きなマイルストーンであり、これまでこれを達成したシステムやモデルをテストしたことはありません。これはARC AGIの世界で新しい領域です。おめでとうございます」
また、ARC AGIチャレンジの作成者であるフランソワ・ショレによれば、この85%という人間のパフォーマンスの閾値を超えることができる言語モデルは、おそらくAGIである可能性があると述べています。
「仮に1年後に、マルチモーダルモデルがARCを解決できる、つまり平均的な人間が得られるであろう80%程度のスコアを得られたとしたら、それはおそらくAGIですね。正直に言うと、私が見たいのは、ARCのテストセットで何が出題されるかを明示的に予測しようとしない情報だけで訓練された言語モデルが、80%程度のスコアでARCを解くことです」
最近のニュースに対する彼の反応をXの投稿で見てみましょう。
「今日、OpenAIは次世代推論モデルo3を発表しました。私たちはOpenAIと協力してARC AGIでテストを行い、これが新しいタスクに適応する能力において重要なブレークスルーを表していると考えています。非常にコストがかかりますが、単なる力任せではありません。これらの能力は新しい領域であり、真剣な科学的注目に値します」
また、こうも述べています。
「これはAGIなのでしょうか?新しいモデルは非常に印象的で、AGIに向けた大きなマイルストーンを表していますが、私はこれがAGIだとは考えていません。o3が解けない非常に簡単なARC AGI1のタスクがまだいくつかあり、ARC AGI2がo3にとって極めて難しいままであるという初期の兆候が出ています。
これは、専門知識を必要とせずに、人間にとっては簡単でもAIにとっては不可能な、飽和していない興味深いベンチマークを作ることがまだ可能であることを示しています。このような評価を作ることが完全に不可能になったとき、私たちはAGIを手に入れることになるでしょう」
皆さんはこれについてどう思いますか?個人的には、o3はAGIではないという彼の意見に同意しますが、このような汎化テストを作ることが不可能になることを、AGIを達成したと最終的に言えるための基準とは考えません。
また、彼が先ほどのクリップで述べたことを考えると、ARC AGIチャレンジの第2バージョンを作ることについて話していることは、ゴールポストを動かしているように見えます。
OpenAIが実際にARC AGIのトレーニングデータセットを使ってo3を訓練したという話もありました。ここに書かれているように、「OpenAIは私たちがテストしたo3を公開トレーニングセットの75%で訓練したことを共有しました。より詳しい詳細は共有されていません。ARC AGIで訓練されていないモデルではまだテストを行っておらず、パフォーマンスがどの程度ARC AGIのトレーニングデータによるものなのかを理解していません」
つまり、o3は公開トレーニングセットの75%で訓練されており、プライベートのARC AGIテストの一部の質問をすでに見ている可能性があります。しかし、フランソワ・ショレはこれに対して、「これがトレーニングセットの目的です。モデルをそれで訓練することです。モデルがARCデータに事前に触れていなかったとしたら、それはさらに印象的でしょうが、モデルがトレーニングセットを通じてARCに適応したという事実は、そのスコアを決して無効にするものではありません」と回答しています。
ARCのトレーニングデータセットで訓練されていないo3モデルが、訓練されたo3モデルよりも大幅に劣るパフォーマンスを示すことが判明しない限り、私はこれは大きな問題ではないと考えます。ただし、その結果を得られるかどうかはわかりません。
いずれにせよ、o3は非常に印象的であり、誰もこれほど早くこのようなスコアを期待していなかったことを認識することが重要です。
ARK AGIの公式ウェブサイトに記載されているように、「これはAIの能力における驚くべき重要なステップ関数的な向上であり、GPTファミリーモデルでは見られなかった新しいタスクへの適応能力を示しています。参考までに、ARC AGI1は2020年のGPT-3の0%から2024年のGPT-4の5%まで4年かかりました。AIの能力に関する全ての直感はo3のために更新する必要があります」
このステップ関数的な向上には代価が伴います。ここで示されているように、実際のARC AGI賞コンテストのガイドラインに収まる低い計算量でo3にARC AGIチャレンジを受けさせた場合、75.7%のスコアで3300万トークンを生成し、約2,000ドルのコストがかかりました。
最大の計算量を使用した場合、OpenAIは87.5%のスコアを記録しましたが、実際のコストは記載されていませんでした。しかし、生成されたトークン数57億から推測すると、おそらく35万ドル程度かかったと考えられます。明らかに非常に高額ですが、AGIを構築しているのですから、安価にはなりません。
最後に、これについて皆さんはどう思われるか興味があります。これがAGIだと主張する人々と、明らかにそうではないと主張する人々の、様々な反応を目にしています。
私にとって、o3はAGIではありませんが、AGIが近づいており、この新しい推論スケーリングパラダイムで正しい方向に進んでいることを示す重要な兆候です。
コメント欄で、あなたはこれがAGIだと思うかどうか、そしてその理由を教えてください。
いつもご視聴ありがとうございます。動画を楽しんでいただけましたら、ぜひ「いいね」を押してください。また、このような最新のAIニュースを逃さないようにするには、購読ボタンを押すことをお忘れなく。
さらに、最後にサム・アルトマンが次に何が来るかについて語る新しいクリップをご紹介します。
「かつてはよく使われた言葉で、遠い将来の本当に賢いAIを指していました。しかし、それに近づくにつれて、あまり有用な用語ではなくなってきました。人々は非常に異なる意味で使っています。
一部の人々はo1とそれほど変わらないものを指し、一部の人々は真の超知能、つまり人類全体を合わせたよりも賢いものを指します。
私たちは今、異なるレベルを使おうとしています。5段階のフレームワークがあり、現在は推論のレベル2です。AGIかそうでないかという二項対立は、近づくにつれて粗すぎるものになってきました。
しかし、来年末、2025年末までには、本当に驚くべき認知タスクを実行できるシステムを持つことになると予想しています。それを使うと、『このシステムは多くの難しい問題で私よりも賢い』と感じるでしょう」