
OpenAIがついに認める『我々はAGIを達成した』
4,781 文字
バヘド・カジミ、機械学習博士でOpenAIのテクニカルスタッフのメンバーが、最近XことTwitterで、彼の意見では既にAGIを達成したと述べました。この動画は、OpenAIの従業員が基本的に公に出て、彼の意見では既にAGIを達成したと明確に述べたことについてです。これはかなり驚くべき発言です。画期的な出来事となるからです。しかし、より広いコミュニティのために検証する価値があると思います。私たちが本当に何が起きているのか理解できるように。
彼はこう述べています。「私の意見では、我々は既にAGIを達成しており、それは最近の秋にリリースされた新しいモデルo1でさらに明確になっています。我々はまだ、あらゆるタスクであらゆる人間よりも優れているわけではありませんが、私たちが持っているものは、ほとんどのタスクにおいてほとんどの人間よりも優れています。LLMはただレシピに従うだけだと言う人もいますが、第一に、誰も1兆パラメータの深層ニューラルネットワークが何を学習できるのか本当には説明できません。しかし、たとえ科学的方法全体がレシピとして要約できると信じているとしても - 観察し、仮説を立て、検証する - 優れた科学者は直感に基づいてより良い仮説を生み出すことができますが、その直感自体は多くの試行錯誤によって築かれたものです。例から学べないものは何もありません」
彼は基本的に問題解決の方法を分解し、優れた科学者は直感に基づいてより良い仮説を生み出すことができるという事実について話していますが、もちろん彼らは既に多くの試行錯誤を経ています。彼は基本的に、同じようなo1モデルを構築したと言っています。そして、これがすべてのタスクですべての人間よりも優れているわけではないかもしれませんが、ほとんどのタスクでほとんどの人間よりも優れています。私もこれには同意します。なぜなら、ベンチマークを見ると、かなり強力なモデルだからです。
「我々は既にAGIを達成した」というこの発言は、もちろん物議を醸すでしょう。私は、一部の人々が同意し、一部の人々が反対することを確実に知っています。しかし、サム・アルトマンが2023年に「OpenAI内部でAGIが達成された」と述べた時のことを振り返ってみたいと思います。この日付は本当に重要だったと思います。なぜなら、この頃、現在o1に組み込まれているモデルであるQ*についてのリークがあったことを覚えているからです。
AGIが達成されたかどうかは、もちろん意見の問題かもしれませんが、最近OpenAIのCEOも2025年にAGIを手に入れることになると述べました。Y Combinatorでのこのインタビューを覚えていますか。サム・アルトマンは明確に、それが彼が最も楽しみにしていることだと述べました。「2025年に何が来ることを楽しみにしていますか?」「AGIです。はい、それが楽しみです」
そして、サム・アルトマンがニューヨーク・タイムズとのインタビューで最近述べた最も驚くべきことの1つは、「AGIは皆さんが思っているよりも早く来ますが、それはあまり重要ではないでしょう」というものでした。「私の推測では、私たちは世界の大多数の人々が考えているよりも早くAGIに到達するでしょう。そしてそれはあまり重要ではないでしょう。そして、私たちや他の人々が表明する安全性への懸念の多くは、実際にはAGIの瞬間には来ません。AGIが構築され、世界は基本的に同じように進み、経済はより速く動き、物事はより速く成長しますが、その後、私たちが言うところのAGIから超知能と呼ぶものまでの長い継続があります」
基本的に彼が言っているのは、o1は推論において非常に素晴らしいということです。o1のベンチマークを見たことがあれば、これらのベンチマークがかなり驚異的だということがわかるでしょう。なぜなら、これは人間の専門家よりも上回っているからです。右側で見ることができるように、博士レベルの質問でo1プレビュー1は、専門家レベルの人間程度のレベルで実行しています。これはかなり重要な声明です。
ASIやAGIが完全に到来したとき、ほとんどの人々が反応しないだろうというこの感覚に私が同意する理由は、平均的な人はAGIに対する実際の用途を持っていないと思うからです。このモデルが非常に複雑で高度な数学を行うことができたとしても、それは平均的な人にはあまり当てはまりません。だからこそ、私たちがそれを達成したとき、社会的なスケールではあまり重要ではないでしょう。もちろん、他の技術に組み込まれる波及効果はあるでしょうが、平均的な人は博士レベルの科学の質問、競争数学、さらには競争コードに対する用途を本当には持っていないと思います。
私たちが実際にAGIに非常に近づいているもう1つの指標は、もちろんMicrosoftがOpenAIとの契約を交渉しようとしているという事実です。そしてOpenAIは、より多くの投資を促すためにMicrosoftとの契約からAGIに関する条項を削除したいと考えている当事者です。この契約に馴染みがない場合、これは基本的に、OpenAIがAGIを達成すると、Microsoftはもはやそのテクノロジーにアクセスできなくなるという条項が含まれている契約です。そしてもちろん、これは会社を継続させるために追加の資金が必要なため、彼らが変更しようとしているものです。
この記事では、OpenAIがAGIをどのように定義しているかについて説明しています。その定義とは「ほとんどの経済的に価値のある仕事で人間を上回る高度に自律的なシステム」です。そしてその定義は重要です。なぜなら、定義はOpenAIによって決定されるからです。現在、報告によると、OpenAIの取締役会はまだオプションを検討中であり、現時点では決定は下されていないとのことです。しかし、サム・アルトマンは依然として、会社が近い将来AGIを達成すると強気な姿勢を保っています。
正直なところ、これは彼らが意図的に曖昧にしているものだと私は信じています。そうすることで、もしMicrosoftからの追加資金が必要な場合はそれを得ることができ、その資金が必要ない場合は素早く「ほら、私たちはAGIを達成していない」あるいは「達成した」と言うことができ、もちろんそれでレースに出発できるのです。
3週間前を覚えているでしょうか。私は新しい研究がAGIが達成されたことを証明したという話をしました。基本的にこのビデオで、MITの研究者たちが61.9%という最先端の公開検証精度を達成し、平均的な人間のスコアに匹敵したことについて話しました。このビデオで私は基本的に、AIコミュニティが知らないうちにAGIの閾値を超えた可能性があると述べました。これは「テスト時トレーニングの驚くべき効果」というタイトルの論文を参照していました。そしてそれは、ARCベンチマークが最も難しいベンチマークの1つであるにもかかわらず、このベンチマークで人間のパフォーマンスを達成したという詳細について説明しています。これは非常に重要です。なぜなら、その特定のベンチマークは記憶に対して耐性を持つように設計されているからです。
そのベンチマークの一部の個人が、最近のo1パラダイムについてコメントしています。そしてo1パラダイムは間違いなく最も驚くべきパラダイムの1つです。なぜなら、彼によれば、GPT-2以来最も重要な革新だからです。これは非常に深遠な声明です。なぜなら、これの後に来るすべてのものが、技術的に見てかなりの影響力を持つことを意味するからです。
ここで彼は実際にこう述べています。「AGIの2つの前提条件であるテスト時の計算能力と、その情報をモデルに組み込み直す能力は、一般知能の閾値を超える可能性のあるニューラルモデルで使用されています。私は、o1が商用モデルにおいて、GPT-2にまで遡って見た中で、一般化能力において最大の改善だと信じています。モデルが1つの思考の流れだけでなく、複数の思考を生成し、それらを検索し、バックトラッキングを行うことを可能にするこのテスト時検索の考え方は、これらのモデルがユーザーに与えられたプロンプトの周りの状況空間をより完全に探索することを可能にします」
「さて、『これはAGIなのか』という議論がありますが、私は『いいえ』と主張します。少なくともこの定義によれば、AGIに到達することを概念的に制限する1つの要素が欠けていると思います。それは、依然として基本的な事前学習分布の上で動作しているということです。彼らがこれを行った方法は、数学やコード、プログラミングなどの形式的なドメインにわたって、多くの合成的な思考の変化を生成したことです。おそらく非形式的な事前学習もありました。おそらく人間によってスコア付けされた目標のサブゴール分解のようなものです。彼らはそのシグナルを事前学習の報酬シグナルとして使用しましたが、基本的には事前学習に投入されたデータによって制限されています」
「私は、少なくとも概念的にアーキテクチャの制約を十分に緩和するためには、o1が行っているような、多くのトップ企業が行っているようなテスト時検索の形式と、テスト時の情報をモデルに組み込んで前進させる能力の両方が必要だと思います。現実と接触し、それから学習する能力が必要です。毎回それから学習しなければならないのではなく」
もちろん、これはかなり驚くべきことです。ARCベンチマークの関係者が、私たちはAGIを持っていないが、正しい道筋にいると述べていることは、依然として非常に良い兆候です。
たとえ現時点でAGIを持っていないとしても、この技術は依然として非常にPCTになると思います。なぜなら、これがどのようにスケールするかを見ると、基本的にここには止まるものがないことがわかるからです。OpenAIでo1の推論に取り組んだノーラン・ブラウンを見ることができます。彼らは実際に、このレベルのスケーリングを止めるものは基本的にないと話しており、より多くの計算能力を追加すればするほど、これらのベンチマークからより多くの精度が得られるように見えます。
「o1について説明しましょう。これは私たちの研究ブログ記事で公開した図です。x軸には対数スケールでテスト時の計算能力があり、y軸にはAMYでの精度があります。これは米国数学オリンピックチームの予選です。非常に難しい数学のテストです。すべての答えは整数です。そして、テスト時の計算能力、o1での推論の計算量をスケールアップするにつれて、このテストでの成績が20%から80%以上に上がることがわかります。そしてこれが止まる兆しは実際にありません。明らかに100%を超えることはありませんが、これをさらに押し進めれば、このテストでさらなるパフォーマンスが得られるように見えます」
さて、私の質問は、OpenAIで働いているこの人が言ったように、私たちは実際にAGIを達成したと思いますか?個人的には50/50だと思います。私たちは70%くらいまで来ていると思います。実際にリアルタイムで相互作用し、自分の間違いから学ぶことができるシステムを手に入れたとき、それは完全に異なるボールゲームになると思います。そして、私たちはそれを潜在的にo2あるいはo3で確実に見ることになると思います。そして、この新しいパラダイムが開かれたことを考えると、物事はもう少し速く動くと思います。なぜなら、これらの企業は確実に何が賭けられているのかを認識しているからです。