見出し画像

OpenAIの新モデル:O3 🤯 最も厳格なAGIテストを突破!

4,033 文字

人工知能が、世界最高の数学者でも何時間もしくは何日もかかるような本当に複雑な数学的問題を解決できたり、博士レベルの複雑な質問に答えられたりするとしたら。攻撃的なテスト設定でO3を使用すると、25%以上の成果を得ることができ、また博士レベルの科学的質問におけるモデルのパフォーマンスを測定すると87.7%を記録します。
さらに、人間の知能テストに似たテストで平均的な人間のパフォーマンスを上回ることができるとしたら。これは特に重要で、申し訳ありませんが87.5%です。これは特に重要です。なぜなら、人間のパフォーマンスの閾値は85%であり、それを上回ることは重要なマイルストーンだからです。これまでこれを達成したシステムやモデルは存在しませんでした。
OpenAIが先ほどO3を発表し、これらの要件をすべて満たしています。私たちは既に汎用人工知能(AGI)に到達したと言えるでしょうか。
今日、OpenAIは2つの新しいモデルを発表しました。O3とO3 miniです。O3は非常に高度な知能を持つモデルで、O3 miniは信じられないほど賢く、パフォーマンスとコスト効率に優れています。これらはOファミリーのモデルですが、O2とは呼ばれていません。ある通信会社がこの商標を登録しているため、O3にスキップし、大規模モデルと小規模モデルの約束を発表しました。
現時点では発表のみで、これらのモデルはまだ利用できませんが、その能力とさまざまなベンチマークでのスコア、そして新しいレベルの知能に到達したという約束が示されています。
最初のベンチマークの結果は、ソフトウェア開発とプログラミングに関連するものです。このように、この新しいモデルは明らかに前身のモデルを上回っており、場合によっては20%以上優れています。特に興味深いのは、2番目のベンチマークのスコアで、これは人間のパフォーマンスと比較可能なベンチマークであり、このモデルは2700 Eloポイントを記録しています。
O3は非常に難しい技術評価において本当に強力なモデルです。まずコーディング評価から始めましょう。ソフトウェアスタイルの評価では、SweetBench Verifiedという実世界のソフトウェアタスクで構成される評価があり、O3は約71.7%の精度を示しています。これは私たちのO1モデルより20%以上優れています。これは本当に有用性の境界を押し広げていることを意味します。
競技プログラミングでも、O1はCodeForceというコンテキストコーディングサイトで約1891 Eloを達成し、より攻撃的な計算設定と高いテスト時間で、ほぼ2727 Eloを達成できます。参考までに、これは一流のプログラマーが達成できる約2500ポイントを上回るスコアです。確かに3000ポイントを超えるプログラマーも存在しますが。
次に、数学的問題を解決する能力に関するベンチマークの結果を発表しました。アメリカ数学オリンピックの予選問題で、このモデルはわずか1問しか間違えませんでした。競技プログラミングと同様に、競技数学のベンチマークでも非常に強力なスコアを達成しています。O3は約96.7%の精度を達成し、O1の83.3%のAMIパフォーマンスを上回っています。これは、アメリカ数学オリンピックの非常に難しい予備試験でO3が通常1問しか間違えないことを意味します。
その後、このモデルは博士レベルの複雑な科学の質問に答えることができると説明されました。GPQ Diamondと呼ばれる別の非常に難しいベンチマークがあり、これは博士レベルの科学的質問におけるモデルのパフォーマンスを測定します。ここで私たちは87.7%という最先端の数字を得ており、これはO1の78%のパフォーマンスより約10%優れています。これを理解しやすくするために言えば、博士号を持つ専門家は通常、自分の得意分野で約70%を得ます。ご覧のように、専門分野の博士号保持者が達成できるパフォーマンスを実質的に17ポイント上回っています。
私の意見では、これは知能というよりも知識のテストに近いかもしれませんが、結果は本当に驚くべきものです。ベンチマークやスコアを見ると、バーに2つの色があることがわかります。これらの2色は、より暗い色がこのモデルが通常モードで動作している時のもので、追加のスコアはモデルにより多くの推論時間を与えた時に達成されます。
このモデルはOファミリーの別のモデルであるため、より正確な回答を得るために情報を前処理しています。この追加の能力、つまり考える、推論する、前処理する能力を有効にすると、ベンチマークを飽和させ始めていることに気づきました。つまり、ベンチマークがこれらのモデルを評価するのに十分な複雑さを持っていないため、より難しいベンチマーク、追加の困難さを持つベンチマークで評価し始めました。
実際、最も驚いたのは、専門家の数学者が何時間も何日もかかるような新しい数学の問題を含むベンチマークです。これまで、人工知能モデルはほとんどこれらを最低限許容可能なレベルで解決することができませんでしたが、この新しいO3モデルでの結果は驚くべきものです。
昨年は本当に、最先端のモデルがどこにあるのかを正確に評価するために、より難しいベンチマークの必要性が浮き彫りになりました。ここ数ヶ月で、いくつかの有望なものが現れています。特に強調したいのは、Epic AIのFrontier Math Benchmarkです。これは今日、存在する中で最も難しい数学的ベンチマークと考えられているからです。
これは未公開の新しいデータで構成されたデータセットであり、非常に難しい問題、用語の分析なども含まれています。プロの数学者でも1つの問題を解くのに何時間も、場合によっては何日もかかるようなものです。今日、存在するすべての提案はこのベンチマークで2%未満の精度しか持っていませんが、攻撃的なテスト設定でO3を使用すると、25%以上を達成できています。
注目すべきは、改善の度合いというよりも、実質的に新しい能力のロックを解除したことです。以前のモデルはこのベンチマークでほとんど何も解決できなかったのに対し、このモデルは4分の1を解決できるようになったことは本当に驚くべきことです。
しかし、最大の驚きは次のベンチマークでやってきました。このO3モデルは、おそらく人間の知能テストに最も似ているテスト、あるいは最も似たような方法で設計されたテストを解決することができます。これがここでのポイントです。ARCの第1版は、最先端のモデルで0%から5%に到達するのに5年かかりました。しかし今日、私は非常に興奮して言えますが、O3は新しい最先端のスコアを達成し、O3の低計算で検証しました。O3はARC AGIの半プライベートセットで75.7点を達成しました。
能力のデモンストレーションとして、O3にさらに考える時間を与え、計算を本当に高めると、O3は同じ隠された検証セットで85.7点を獲得することができました。このグラフの点を見るだけで、このO3モデルがどこに位置しているかがわかります。結果は完全に例外的です。最も興味深いのは、この87点のスコアが人間の平均スコアである85点を上回っていることです。
これは特に重要です。申し訳ありませんが、87.5%です。これは特に重要です。なぜなら、人間のパフォーマンスの閾値は85%であり、これを上回ることは重要なマイルストーンだからです。これまでこれを達成したシステムやモデルは存在しませんでした。
つまり、この場合のO3人工知能は、人間のIQを計算するために使用される行列にかなり似たテストを、平均的な人間よりも高い効率レベルで解決できるということです。これは必ずしも人工知能が既に人間より賢いということを意味するわけではありません。人間の場合、これらのテストはこのように設計されています。なぜなら、人間の異なる知能能力が、これらの抽象的な問題を解決する能力と非常に強く相関していることが観察されているからです。
この相関が人工知能に存在するかどうかはわかりませんが、抽象的思考能力と、数学の問題のような論理を必要とする問題を解決する能力、そして博士レベルの問題のような複雑な知識を必要とする問題を解決する能力を組み合わせると、すべての面で非常に高いスコアを記録していることに気づきます。
これは、少なくとも生の知的能力レベル、あるいはより学術的な概念に適用される知的能力のレベルで、AGIに似たものに近づいているのではないかと考えさせます。しかし、このレベルに達していなくても、新しい扉を開いたことは確かです。
以前のTransformerモデルと以前のモデルで限界に達しているように見えた時、今では世代から世代へと新しい推論モデルを大幅に改善することができるようになっています。したがって、私たちは特に、この新しい研究の方向性、この新しいモデル作成方法が私たちにもたらすものについて考える必要があります。
推論において明らかに優れたモデルであるこのモデルを発表することに加えて、それを行うのにはるかに効率的で、したがってこれらのモデルの使用コストを削減するO3 miniモデルも発表しました。
正直なところ、私の感覚では、天井に達しているように見えましたが、突然OpenAIが扉を開き、その扉を通じて非常に急速に進歩を続け、この場合は人工知能の新しい知能レベルに到達できるようになったように見えます。
あなたは、私たちが現時点で達成したものがAGIに近づいていると思いますか?それは既にAGIなのでしょうか?それとも、この新しい人工知能開発戦略に基づいて、すぐにAGIに到達するのでしょうか?コメントで読ませていただきます。

いいなと思ったら応援しよう!