
OpenAIがAGIを達成したことを公表(OpenAI o3の解説)
5,138 文字
今日は、AI業界にとって非常に歴史的な瞬間を迎えました。というのも、今日がAGIが実際に実現した日として記憶されることになるでしょう。なぜそう言えるかというと、OpenAIが今日、新しいo3モデルをリリースしたからです。これはo1シリーズの2番目のイテレーションとなるモデルで、長時間思考するモデルです。
なぜこれが潜在的にAGIと言えるのか。それは、この新しいシステムがARCベンチマークで人間のパフォーマンスを上回ることに成功したからです。ARCベンチマークが非常に重要なベンチマークである理由は、それが記憶に依存しない設計になっているからです。ARCは機械知能のためのIQテストのようなものとして意図されています。
他のほとんどのベンチマークと異なる点は、記憶に依存しないように設計されているということです。LLMの仕組みを見ると、基本的に大きな補間メモリであり、できるだけ多くの知識とパターンを詰め込むことで能力を向上させています。対照的に、ARCは多くの知識を必要としません。基本的な物理、物体性、数え方といった「コアナレッジ」と呼ばれる基礎的な知識のみを必要とするように設計されています。これは4歳か5歳の子供が持っているような種類の知識です。
興味深いのは、ARCの各パズルが新規性を持っているということです。インターネット全体を記憶していたとしても、おそらく以前に遭遇したことのないものになっています。
人間は簡単に解けるのに、現在のAIシステムは解けないこのテストがどのようなものか見てみましょう。AGIは入力例と出力例に関するものです。変換のルールを理解し、出力を推測することが目標です。「空いている場所に濃い青の四角を置く」というのがここでの答えです。
人間にとってはそれを直感的に推測するのは簡単ですが、AIにとっては何が起きているのかを理解するのは驚くほど難しいのです。興味深いのは、これまでAIはこの問題を解くことができなかったということです。人間のパネルがこれを実際に解けることを確認したにもかかわらずです。
ARCの特徴的な点は、各タスクが異なるスキルを必要とすることです。青い四角を角に置くような同じタスクは二度と出題されません。それは意図的なものです。なぜなら、モデルが新しいスキルをその場で学習する能力をテストしたいからです。既に記憶したことを繰り返すだけではいけないのです。
ARC AGIバージョン1は、最先端モデルで0%から5%に到達するのに5年かかりました。しかし今日、o3が低コンピューティングで新しい最高記録を達成したことを大変嬉しく思います。ARC AGIの準非公開ホールドアウトセットで75.7点を獲得しました。
これは公開リーダーボードの計算要件の範囲内で達成され、新しい1位の記録となったので、非常に印象的です。おめでたいことです。AI業界外の人々にとってはこれが大きな出来事とは思えないかもしれませんが、これは本当に大きな出来事です。約5年間解決しようとしてきた問題だからです。これはAIの黄金基準とされてきたベンチマークであり、伝統的にAIシステムが特に苦手としてきたタスクで人間のパフォーマンスを上回るシステムを初めて実現したことを示しています。
興味深いのは、2つのバージョンがあったことです。低チューニングのo3と高チューニングのo3です。低チューニングのo3は低推論努力で、最小の計算努力で動作するモデルで、速度とコスト効率に最適化されています。深い推論が必要ない単純なタスク、基本的なコーディングや簡単なタスクに適しています。
そして高チューニングのものは、モデルがより多くの時間とリソースを使って問題を分析・解決するもので、より深い推論やマルチステップの問題解決を必要とする複雑なタスクに最適化されています。モデルをチューニングして、より長く考えさせることで、人間の現在のレベルを超えることができました。
驚くべきことに、ARC AGIベンチマークを作成した人々は、ARC AGIでのパフォーマンスは新規性適応における真のブレークスルーを示していると述べています。これは段階的な進歩ではなく、新しい領域に入ったのです。
彼らはこれがAGIなのかと問い始めました。o3は依然としてとても簡単なタスクのいくつかで失敗しており、人間の知能との根本的な違いを示しています。冒頭で見たFrancois Choletは、これが厳密な意味でのAGIではないと考えていますが、確かに広義のAGIへの道のりにおける重要なマイルストーンを表していると述べています。
o3が解けないARC AGI 1の簡単なタスクがまだかなりあり、ARC AI 2はo3にとって極めて困難なままだろうという初期の兆候があると彼は言います。専門知識を含まずに、人間にとって簡単でもAIには不可能な、飽和していない興味深いベンチマークを作ることが可能だということを示していると述べています。
そして彼は、そのような評価を作ることが完全に不可能になった時にAGIが実現すると述べていますが、これは彼が今年初めに言ったことと少し異なります。6ヶ月前に彼がベンチマークで80%を超えることについて述べたことを見てみましょう。今日それは達成されました。
「1年後にマルチモーダルモデルがARCを解決できるとしましょう。つまり、平均的な人間が得るであろう80%を得られるとします。その場合、AGIの実現はかなり可能性があります。正直に言うと、私が見たいのは、コアナレッジに関連する内容だけを学習した後で、LLMタイプのモデルがARCで80%を達成することです。」
モデルの制限の1つは実際には計算コストです。ARCプライズコンペティションは打ち破られたのかという質問に対して、彼は「いいえ」と答えています。ARCプライズコンペティションは完全な非公開データセットを対象としており、これは異なる、やや難しい評価です。ARCプライズでは、ソリューションはタスクあたり約10セントの固定量の計算で実行する必要があります。
これが非常に興味深い理由は、o3高チューニングモデルに投入される計算量を見ると、このモデルはタスクあたり約11,000ドルかかるということです。AIを何かに使おうとすると非常に高額です。多くの異なるソリューションを検索するこれらのモデルは非常に高額になると思います。タスクあたり1,000ドル以上というのは、どんなタスクを実行する場合でも考えると途方もなく高額です。
もちろん、AIのコストは最終的に下がっていくでしょう。ベンチマークを達成できたという事実は、最高の指標として使えます。初期の技術が大きかった時期、大きなテレビや非常に大きな電話機などとの類似点を見ることができます。しかし現在では、技術により効率的な方法を見つけ、最終的にはより速く、もちろんより安価に物事を行うようになっています。AIでも同様のことが起こる可能性が高いです。
驚くべきことは、2年前に彼がARC AGIベンチマークの完全な解決は今後8年以内には実現しないと述べていたことです。70%達成は8年以内、おそらく4、5年と言っていました。AIが多くの人々の予測を上回るスピードで進んでいることがわかります。
また、SWEベンチ(非常に難しいソフトウェアエンジニアリングのベンチマーク)でも非常に良い成績を収めました。ソフトウェアエンジニアにとってはおそらく良いニュースではないでしょうが、今や多くの人々がコーディングを行っているため、実際に書かれているコードを理解するソフトウェアエンジニアの需要はおそらく増えているでしょう。
興味深いのは、このビデオを作成している時に気づいたことですが、これは実際にo2ではなくo3だということです。o3についてのこのブレークスルーを読んでいて覚えておく必要があったのは、これが実際にモデルの2回目のイテレーションだということです。一部の人々はo3がOpenAIの3番目のイテレーションだと考えているかもしれませんが、o2は単にイギリスの携帯電話事業者o2との競合を避けるためにスキップされただけです。
これがモデルの2回目のイテレーションに過ぎないという事実は、潜在的にo3やo4が非常に大きな飛躍となり、ベンチマークの飽和に達する可能性があることを示しています。
また、数学のベンチマークやPhDレベルの科学のベンチマークを見ると、そこでもかなりの改善が見られます。ただし、これはベンチマークの飽和領域に達しつつあると思います。競争数学で96.7%、こちらで87.7%というスコアが見られるからです。
前にも述べたように、多くの人々が言い始めていることの1つは、AIが以前のような速度で増加していないため、減速したということです。理解しなければならないのは、これらのベンチマークが95%以上または89%付近に達すると、段階的な向上はますます難しくなるということです。
なぜなら、第一に残りは10%しかなく、第二に質問の3〜5%は汚染されている可能性が高いからです。つまり、それらの質問にはエラーがあるということです。これは特定のベンチマークで100%が単に不可能であることを意味し、そのために彼らはフロンティア数学ベンチマークを作成することを決めました。
ベンチマークがリリースされた時点(2、3ヶ月前だと思います)で、これらの質問で2%しか解けなかった現行モデルがありました。トップにはGemini 1.5 Pro、Claude 3 Sonic、o1プレビューとo1ミニがありましたが、o2/o3がどれほど優れているかを理解していない人のために言うと、このモデルは25%を達成しています。
これは研究レベルの数学に関して本当に信じられないほどの成果です。このような種類の数学は超超難しく、それらの質問はすべて完全に新規のものです。最近のベンチマークは真の能力を示していません。こう考えてみてください。これらのベンチマークを見ると、モデルが全体的に10%程度改善したように見えるかもしれませんが、それは事実ではありません。
実際に、本当に難しいベンチマーク、つまり未見の数学問題を本当に解く能力を見ると、現在の最高水準から20倍の改善が見られます。これは絶対に信じられないほどです。これが人々が認識する必要がある非常に重要な画像だと思います。このようなベンチマークで大幅な向上を示しているとしても、この種のモデルを比較することはできません。
重要なのは、OpenAIの推論部門で働くノーアン・ブラウンが、o3はその軌道を継続すると述べていることです。AIが減速していると考えている人々にとって、それが事実でないことは明らかです。
興味深いことに、サム・アルトマンもインタビューでAGIについての彼の考えを語っています。前にも言ったように、定義は常に変化し続けています。以前は、人々が多用する用語で、将来の非常に賢いAIを指していました。
それに近づくにつれて、あまり有用な用語ではなくなってきたと思います。人々は非常に異なる意味で使用しています。o1とそれほど変わらないものを指す人もいれば、真の超知能、つまり人類全体を合わせたよりも賢いものを指す人もいます。
今では、これらの異なるレベルを使用しようとしています。5段階のフレームワークがあり、現在は推論のレベル2にいます。AGIかそうでないかという二項対立ではなく、近づくにつれてそれは粗すぎるものになったと思います。
ただし、来年末、2025年末までには、本当に驚くべき認知タスクを実行できるシステムができると期待しています。それを使うと、「このシステムは多くの難しい問題で私よりも賢い」と思うようなものになるでしょう。
ここで彼は、安全性研究者の方々に対して、o3ミニとo3のテストを手伝うことを検討してほしいと述べています。近いうちに一般公開できることを楽しみにしているからです。OpenAIがこれらの素晴らしいモデルを作成するために行ってきた仕事を非常に誇りに思っています。
これらのモデルが実際にリリースされた時、人々が何をするのか、何を構築するのか、そしてもちろん次に何が起こるのか、興味深いところです。このビデオを楽しんでいただけた方は、これがAGIかどうかについてのあなたの考えを教えてください。そのベンチマークは突破され、我々は常に新しい方法を見出していると私は考えています。次にどこへ向かうのか、興味深いところです。