見出し画像

o3 - すごい

10,129 文字

今夜OpenAIが発表したo3というモデルは、人工知能が壁に突き当たっているという評判を最終的に覆すかもしれないものでした。OpenAIはその壁を乗り越えたというよりも、むしろ壁が実際には存在しなかったという証拠を提供したように見えます。
今夜の本当のニュースは、私にとってo3が数十年にわたって存在するはずのベンチマークを打ち砕いたということではありません。OpenAIが、ベンチマークできるものは何でも、Oシリーズのモデルが最終的に打ち破れることを示したということです。
どんな課題でも考えてみてください。もしその課題が最終的に推論可能で、その推論のステップがトレーニングデータのどこかに存在するなら、Oシリーズのモデルは最終的にその課題を打ち砕くでしょう。確かに、これらのベンチマークの一部を打ち破るためにo3やOpenAIは35万ドルもの思考時間を費やしたかもしれませんが、コストだけでは長期的に潮流を止めることはできないでしょう。
はい、いつものように注意点もあり、それはかなりの数にのぼります。しかし、これがAIにとって記念碑的な日であることを認めざるを得ませんし、実際に認めます。そして、聞いている人のほとんどは自分のタイムラインを調整すべきでしょう。
とんでもないベンチマークスコアの話に入る前に、o3とは何か、彼らは何をしたのでしょうか?このチャンネルの以前の動画でOシリーズのモデルについてより詳しく説明しましたが、30秒で要約させてください。
AIは、答えに至るまでの長い思考の連鎖に従って、数百、場合によっては数千の候補となる解決策を生成します。おそらく同じベースモデルに基づく検証モデルが、それらの回答を確認してランク付けし、典型的な計算ミスや推論ミスを探します。もちろん、その検証モデルは何千もの正しい推論ステップでトレーニングされています。
しかし、ここが重要なポイントです。数学やコーディングなどの科学分野では、正しい答えが何であるかを知ることができます。したがって、システムが正しい推論ステップ、つまり正しい検証済みの答えに至るステップを生成した場合、モデル全体をそれらの正しいステップで微調整することができるのです。
これは根本的に、次の単語を予測することから、客観的に正しい答えに至る一連のトークンを予測することへと私たちを転換させます。正しい答えだけに基づくこの微調整は、強化学習として分類することができます。
では、o3とは何でしょうか?OpenAIの研究者の一人が今夜私たちに語ったように、それは同じものの発展形です。o3は、o1を超えて強化学習をさらにスケールアップすることで動作しています。o1に特別な材料は追加されていないようですし、秘密のソースも壁もありません。
だからこそ、冒頭で私が言ったように、ベンチマークできるものであれば、Oシリーズのモデルは最終的にそれを打ち破ることができるのです。しかし、o3でのこの飛躍的な進歩が完全に予測可能だったということを示唆したくはありません。
はい、私は今年の最初の動画でAIが指数関数的に成長していることについて話し、検証者や推論時間の計算(より長く考え、より多くの候補解を生成するという fancy な用語です)にも言及しましたが、これほどの飛躍がこんなに早く起こると予測しなかった点では、私はかなり良い仲間の一人です。
簡単にフロンティア数学から始めましょう。o3はどうだったのでしょうか?これは今日、最も難しい数学のベンチマークとされています。これは、未発表の新しい、そしてとても難しい、極めて難しい、そう、とても、とても難しい問題で構成されているデータセットです。プロの数学者でさえ、これらの問題を1つ解くのに何時間も、場合によっては何日もかかるでしょう。
今日、このベンチマークで2%未満の精度しか持たない提供物がすべてであり、o3では積極的なテスト時間設定で25%以上を達成できることを私たちは見ています。彼らは今夜の発表でこれを言いませんでしたが、棒グラフの暗い部分、小さい部分は、モデルが1回の試行で正解を出した場合です。明るい部分は、モデルが多くの異なる解決策を提示し、最も頻繁に出てきた解答、つまりコンセンサスの答えが正解だった場合です。
時間とコストについてはすぐに触れますが、それらの詳細は別として、25%という達成は記念碑的なものです。11月初めにテレンス・タオはこう言いました。これらの質問は極めて難しいものです。ちなみに、彼はおそらく世界で最も賢い人物の一人です。
近い将来、その分野の本物の専門家を持つ以外に、これらを解く基本的な唯一の方法は、関連分野の大学院生のような準専門家と、最新のAIと多くの他の代数パッケージの組み合わせだと思います。
o3は代数パッケージに依存していないことを考えると、これは基本的にo3が数学の本物の専門家でなければならないということを意味しています。タオはまとめて、このベンチマークは少なくとも数年間はAIに耐えるだろうと言いました。
サム・アルトマンは、おそらく2月、少なくとも来年の第1四半期にはo3の完全版をリリースすることを示唆しているようです。これは私には少なくとも、彼らがこのスコアを得るために地球上のすべてのGPUを使い切ったわけではなく、現実的に一般公開やサービス提供ができないというわけではないことを示唆しています。
別の言い方をすれば、私たちは今日利用可能な計算能力の限界にさえ達していないということです。次世代の04は来年第2四半期までに、05は第3四半期までに登場する可能性があります。
別のOpenAIのトップ研究者はこう言いました:o3は非常に高性能です。さらに重要なことは、o1からo3への進歩がわずか3ヶ月だったということで、これは思考の連鎖に対する強化学習の新しいパラダイムでの進歩がいかに速いかを示しています。1〜2年ごとの新モデルという事前学習パラダイムよりもはるかに速く推論計算をスケールできます。私たちはGPT-5を手に入れることはないかもしれませんが、代わりにAGIを手に入れるかもしれません。
もちろん、安全性テストが、これらの新世代モデルの一般公開を遅らせる可能性は十分にあり、そのため最先端の研究所が自身で利用できるものと一般公開されるものとの間に、ますます大きな格差が生じる可能性があります。
Googleの大学院レベルの科学の質問についてはどうでしょうか?OpenAIの研究者の一人が言ったように、そのベンチマークのために黙祷を捧げましょう。2023年11月に生まれ、わずか1年後に死んでしまいました。なぜRIP GP QAなのか?それはo3が87.7%を獲得したからです。ベンチマークは作られるとほぼ同時に打ち砕かれているのです。
そして、競技プログラミングでは、o3は世界で175位という高得点を確立し、人間の99.95%よりも優れた成績を収めています。競技プログラミングは実際のソフトウェアエンジニアリングではないと言うかもしれませんが、実際のソフトウェアエンジニアが直面する本物の問題をテストするsbenchが検証されました。検証部分とは、ベンチマークが本物の質問と明確な答えだけを含むように精査されたことを指します。
Claude 3.5 Sonnetは49%、o3は71.7%を獲得しました。Claudeの作者であるAnthropicのCEOが予見したように:私たちが最近リリースしたSonnet 3.5という最新モデルは、sbenchで約50%を獲得します。sbenchは、プロフェッショナルな実世界のソフトウェアエンジニアリングタスクの例です。年初には最先端の技術で3〜4%でした。つまり、10ヶ月で3%から50%まで上がったことになります。そして、私は1年後にはおそらく90%に達するだろうと思います。もしかしたら、それよりも早くなるかもしれません。
ちなみに、これらは未見のプログラミングコンテストでした。これはデータ汚染ではありません。繰り返しますが、ベンチマークできるものは、Oシリーズのモデルが最終的に、あるいは差し迫って打ち破るでしょう。
興味深いことに、このチャンネルを注意深く追っていた人なら、これがCode Forcesで起こることを予想できたかもしれません。昨年の今頃、GoogleはAlpha Code 2を製作し、Code Forcesの競技の特定の部分で参加者の99.5%を上回る性能を示しました。そして予言的に、彼らは性能がより多くのサンプルでほぼログ線形に増加することを発見しました。
はい、もちろんARC AGIの話に入りますが、まず最初の簡単な注意点を挙げさせてください。ベンチマークできない場合、あるいは少なくともベンチマークが難しい場合、または分野が推論ステップに適していない場合はどうなるでしょうか?例えば、個人的な文章はどうでしょうか?
OpenAIが9月に認めたように、o1から始まるOシリーズのモデルは、一部の自然言語タスクでは好まれず、すべてのユースケースに適しているわけではないことを示唆しています。
では、あるタスクについて考えてみましょう。そのタスクに客観的に正しい答えはありますか?Oシリーズはおそらくまもなくそれを打ち破るでしょう。今夜のo3が証明したように、そのタスクがどれほど難しくても関係ありません。しかし、答えの正しさや出力の質がより好みの問題である場合は、時間がかかるかもしれません。
では、コア推論については どうでしょうか?分布外の一般化、昨年初めにこのチャンネルで取り上げ始めたことについて。一瞬コストやレイテンシーを忘れて、私たちが本当に知りたいのは、これらのモデルがどれほど本質的に知的であるかということです。それが他のすべてを決定づけるでしょう。そして私は、3つの例を通してその質問を投げかけたいと思います。
1つ目は、昨年Natureに掲載された有名な論文で取り上げられた合成性です。本質的に、「between」や「double」、色などの概念を含む言語を作り出し、モデルがそれらの概念を正しい答えに組み合わせることができるかどうかをテストします。概念は十分に抽象的で、もちろんトレーニングデータには決して含まれていないはずのものです。
元のGPT-4はこのチャレンジで大きく失敗し、o1 PRモードは近づきましたが、9分間考えても完全にはできません。「who」を「double」と正しく翻訳しましたが、「Moro」を完全には理解していません。対称性に関係するものだと考えていますが、それが「between」を意味することを把握していません。o3は合成性をマスターするでしょうか?まだテストできないので、その質問には答えられません。
次は、もちろん私自身のベンチマークであるSimple benchです。この動画は元々、12日間の要約になるはずでした。o2を紹介し、GoogleのGemini 2.0 Flash thinking experimentalについて話すつもりでした。今回の思考は、Oシリーズのモデルを思わせる不可視の思考の連鎖です。これまでの3回の実行では、約25%のスコアを獲得しています。これは、Flashのような小さなモデルとしては素晴らしいですが、彼ら自身のモデルGemini experimental 126のこの特定の日のShipusほどは良くありません。
しかし、OpenAIがo3を製作したため、Googleは一旦脇に置いておきます。そこで、o3でSimple benchを打ち破れるかどうかを見るために、本質的に空間的推論をマスターする必要があります。
あなたは自分で質問を読むために一時停止できますが、私は親切にもo1プロムモードにこのビジュアルも提供しました。質問を読まなくても、このグローブが自転車から落ちたらどうなるか、そして川の速度も教えたとしたら、あなたならどう言うでしょうか?
あなたは私に、それらの詳細すべてについてありがとうございますと言うかもしれませんが、正直なところグローブは単に道路に落ちるだけでしょう。o1はその可能性を考えることすらせず、決してしません。なぜなら、空間データは実際にそのトレーニングデータには含まれていないからです。また、洗練された社会的推論データも同様です。
ただし、注意点を加えさせてください。もちろん、トレーニングデータに何が含まれているかは分かりません。私は少なくともo1のトレーニングデータには含まれていないと推測しているだけです。おそらくo3にも含まれていないでしょうが、それは分かりません。o3のベースモデルはoionなのか、それともGPT-4.5やGPT-5になっていたものなのでしょうか。
OpenAIはベースモデルの変更については言及していませんが、否定もしていません。誰かは、o3が物理学のようなものに非常に優れているため、空間的推論のシナリオで何が起こるかを自ら直感的に理解できるという議論をするかもしれません。しかし、それはテストする必要があります。
ただし、Simple benchと空間的推論全般について、私が自分に思い出させなければならないのは、これはおそらくモデルの根本的な限界ではないということです。ビデオの冒頭で述べたように、OpenAIは根本的にo3で、物事を解決するための一般化可能なアプローチの範囲を実証しました。
言い換えれば、十分な空間的推論データと良い空間的推論ベンチマーク、そしてさらにスケールアップされた強化学習があれば、モデルはこれも得意になると思います。そして正直なところ、空間的推論データの不足や、テキストベースの空間的推論データが十分でないために、Simple benchのようなベンチマークがもう少し長く持ちこたえるとしても、Genesisのような物理をモデル化できるシミュレーターがあり、o3のようなモデルに無限に近い生活のようなシミュレーションのトレーニングデータを提供できます。
o3やo4が答えに確信が持てない場合、シミュレーションを立ち上げ、何が起こるかを確認し、その後答えを出力するというのをほとんど想像できます。
そして最後に、ARC AGIについてはどうでしょうか?フランソワ・シャレが作成したこの特定のチャレンジが、AGIの必要条件ではあるが十分条件ではないということについて、そう遠くない過去に私は1つの動画全体を作りました。
o3がこのベンチマークを打ち破ったことが非常に重要である理由は、各例が新規のテスト、つまり意図的に過去や現在のトレーニングデータに含まれないように設計されたチャレンジであるためです。したがって、それを打ち破るには、少なくとも一定レベルの推論が必要です。
ちなみに、推論は実際にはスペクトラムだと私は考えています。私はそれを、効率的な関数と複合関数を導き出すことと定義します。したがって、LLMは常に一種の推論を行ってきました。ただし、彼らが導き出す関数は特に効率的ではなく、より複雑な補間のようなものです。
人間は物事をより早く見つける傾向があり、より多くのメタ的な経験則を持っており、これらのより多くのメタ的な経験則によって、より良く一般化し、以前に見たことのないチャレンジをより効率的に解決することができます。だからこそ、多くの人間は入力1から出力1へ、入力2から出力2へと何が起こったかを見ることができます。GPT-4にはできませんでしたし、o1も本当にはできませんでした。そして、これらの特定の例については、o3でもできません。
はい、それはあなたを驚かせるかもしれません。o3が正解を出せない、それほど難しくない質問がまだあるのです。それにもかかわらず、o3は最大の計算能力を与えられた場合、私の計算では35万ドル相当で、88%を獲得します。
そして、このベンチマークの作者はこう言いました:これは単なる力ずくではありません。確かに非常にコストがかかりますが、これらの能力は新しい領域であり、真剣な科学的注目に値します。彼は言いました:これは、AIに新しいタスクに適応させる能力において、重要なブレークスルーを表していると私たちは信じています。
正しい答えに導いた思考の連鎖や推論のステップで何度も何度も強化され、o3は効率的な関数を導き出すことがかなり上手くなりました。言い換えれば、かなり良く推論を行うようになったのです。
シャレは過去にしばしば、彼の賢い友人の多くがARC AGIで約98%のスコアを獲得したと述べていましたが、9月の最近の論文では、徹底的な研究が行われた際の平均的な人間のパフォーマンスは、公開評価セットで64.2%であることが示されました。
シャレ自身は2年半前に、5年以内に時間制限内で未見のARCタスクで50%以上を獲得する「純粋なトランスフォーマーベースのモデル」は存在しないだろうと予測しました。
o3がAGIであるかどうかについての彼の評価に入る前に、いくつかの簡単な注意点を挙げさせてください。OpenAIの研究者の一人は、87.5%を得るのに16時間かかり、解決に向けて1時間あたり3.5%の上昇率だったことを認めました。
そしてもう一つの注意点として、o3に関する彼の公式声明からですが、OpenAIはそのような高いスコアを得るために必要な高い計算コストを公表しないように要請したようです。しかし、彼らは何らかの形でそれを公表し、低計算の構成の約172倍の計算量だったと述べています。
低計算・高効率の小売コストが22,000ドルだとすると、私の計算では87.5%を得るために約35万ドルかかることになります。あなたの仕事がARC AGIチャレンジを解くことで、年収が35万ドル未満なら、今のところは安全です。
もちろん、コストについて本当に心配なら、o3 miniという選択肢もあります。これはコストのほんの一部でo3に近い性能を発揮します。しかし、より真剣に彼は後の声明で、コストパフォーマンスは今後数ヶ月から数年で劇的に改善する可能性が高いので、これらの能力がかなり短期間のうちに人間の仕事と競争力を持つようになることを想定すべきだと述べています。
チャレンジは常にモデルに推論させることでした。コストとレイテンシーは二の次でした。それらは後で、より多くのGPU、ムーアの法則、アルゴリズムの効率化によって低下する可能性があります。これらのチャレンジを打ち破ることが難しい部分でした。コストは長く持続する障壁ではありません。
シャレは続けて、o3はまだいくつかの非常に簡単なタスクで失敗すると述べており、先ほど示したARCチャレンジがそのような例だと主張するかもしれません。ブロックは基本的に、それらから突き出ている線の方向に移動します。
そして彼は、o3に対してまだ重要なチャレンジを投げかけると思われる、いわゆるARC AGI 2ベンチマークを作成していると述べており、これによってそのスコアを30%未満に下げる可能性があるとしています。彼はすでにそれをテストしたかのように聞こえます。
彼は続けます:高計算時でも、賢い人間はトレーニングなしで95%以上のスコアを獲得できるでしょう。ただし、賢い人間と平均的な人間の違いに注意してください。また、o3は30%未満ですが、04、05はどうでしょうか?2025年末までに06がリリースされた場合はどうなるでしょうか?
それが、ARCの100万ドルの賞金の設立者であるマイク・ナップが、「私たちは何年も持続するAGIベンチマークが欲しい。V2はそうはならないと予想している」と言う理由かもしれません。そして暗号的に、彼は「私たちはまた、非常に異なるものになるV3への注目を始めています」と言います。
それでは、AGIとして数えられるものの重要な定義を設定します。平均的な人間がモデルを上回ることができるベンチマークが1つでもある限り、まだAGIではないのでしょうか?
少なくとも今夜の時点でのチェットの立場は、o3はAGIではないと信じているということです。その理由は、専門知識を含まずに、人間にとって簡単でありながらAIにとって不可能な、まだ飽和していない、打ち砕かれていない、興味深いベンチマークを作成することがまだ可能だからです。
要するに、そのようなevalを作成することが完全に不可能になった時に、私たちはAGIを手に入れることになるでしょう。問題は、それが公平な指標なのかということです。人間が容易に打ち破れるようなベンチマークを作ることが、AIにとって不可能でなければならないのでしょうか?
それとも、AGIの定義は、人間にとってより簡単なベンチマークを作ることが、AIにとってより難しくなった時とすべきでしょうか?ある意味で、それはより公平な定義のように思えます。そうすれば、他のすべてが落ちていて、ただ1つのベンチマークだけが持ちこたえていて、それでもまだAGIではないと言っているような状況にはならないでしょう。
もちろん、それは次の質問を残します:o3が解決できず、かつ人間にとって簡単なベンチマークを作ることは、より難しいのでしょうか?私たちは異なるモダリティを考慮に入れるべきでしょうか?特定のAI生成ビデオにおけるリアリズムの欠如を見分けることはできるでしょうか?
どのようなベンチマークが許可され、または許可されないのでしょうか?チャレンジがどれだけ早く解決されるかを考慮に入れるベンチマークについてはどうでしょうか?残念ながら、AGIかどうかの単純なイエス・ノーを求める人々に対して、満足のいく答えを提供することはできません。
しかし、この達成の重要性に光を当てることはできます。繰り返しますが、それは特定のベンチマークについてではありません。あなたが作成するどのようなベンチマークでも、そして支払える規模でも、何度も何度も使用できるアプローチについてなのです。それはほとんど、ベンチマークという概念そのものを打ち破ることができることを示したようなものです。
はい、もちろん私は今夜OpenAIがリリースした審議的アラインメントに関する論文を読みました。本質的に、彼らはこれらの同じ推論技術を使用して、モデルが有害な要求を拒否しながら、無害な要求を過度に拒否しないようにすることに優れたものにしています。
o1の研究リーダーの一人であるノー・ブラウンは、フロンティア数学の結果が実際には安全性への影響を持っていたと述べました。彼は言いました:LLMがある面でまだ愚かであったとしても、そしてもちろん私はまだo3をSimple benchでテストすることはできませんし、o1もまだAPI アクセスを与えられていませんが、フロンティア数学のような評価を飽和させることは、AIが特定の領域で最高の人間の知性を超えつつあることを示唆しています。
彼が述べた最初の含意は、科学研究の広範な加速が見られるかもしれないということです。しかし、彼は続けて、これはまた、スケーラブルな監督のようなAI安全性のトピックがまもなく仮説的なものでなくなる可能性があることを意味し、これらの領域における研究は、この分野における優先事項でなければならないということを意味しています。スケーラブルな監督は、ばかげた要約をすれば、本質的にどのように比較的単純なモデルや人間が、より賢いモデルをまだ監督できるのかという質問に答えることです。
これは、o3の共同制作者の一人が、私たちは本当に安全性に焦点を当て始める必要があるというのは、おそらくより信憑性があるということです。それは、サム・アルトマンやOpenAIの研究者のような人々が「AGIが来る」と言うとき、私たちはクールエイドを売ろうとしているわけでも、2,000ドルのサブスクリプションを売ろうとしているわけでも、次のラウンドに投資させようとしているわけでもなく、本当に来るのだとジョン・シュルマンが言うのは、おそらくより信憑性があるということです。
今夜のo3について、あなたがどのように評価したにせよ、コメントで私に知らせてください。個人的にはテストするのが待ちきれません。これはAIにとって大きな夜でした。そしていつものように、この夜に私と一緒に参加してくれてありがとうございます。
パトレオンでお会いできることを楽しみにしています。そこで私は議論を続け、実際にかなり早く、OpenAIが始まった運命の年である2015年に関するミニドキュメンタリーをリリースする予定です。しかし、どこにいても素晴らしい一日をお過ごしください。

いいなと思ったら応援しよう!