OpenAIがGPT-5の性能に関するリーク情報に反論
5,653 文
サム・アルトマンが、GPT-5/Orionに関する情報をリークした人々に対して反論を行いました。この動画では、あなたが知っておくべき全ての情報と、それがAIの未来にとってなぜ重要なのかについて詳しく説明していきます。
全ては、この衝撃的な記事から始まりました。この記事によると、OpenAI、Google、Anthropicは、より高度なAIの開発に苦心しているとのことです。これが具体的に何を意味するのか説明しますが、基本的にこの記事では、主要なAI企業3社が新しいモデルの開発に多額の費用をかけているにもかかわらず、その効果が低下していると述べています。
特にサム・アルトマンが反論している内容は以下の通りです。記事では、GPT-5は本質的に期待外れだと述べています。社内では「Orion」として知られているこのモデル(命名規則が変更されたため、一部ではGPT-5と呼ばれています)は、社内事情に詳しい2人の匿名情報提供者によると、会社が期待していた性能に達していないとのことです。
また、昨年の夏後半には、Orionは訓練を受けていないコーディングの質問に答えようとした際に、期待される成果を上げることができなかったとされています。つまり、GPT-4の後継モデルとなるはずのこのモデルが、社内の期待に応えられていないということです。これは、OpenAIの次世代モデルに対する期待の高さを考えると、かなり残念な結果といえます。
さらに詳しい情報があります。記事によると、Orionはまだユーザーにリリースできるレベルに達していないとのことで、ある情報提供者によれば、このシステムは来年初めまでリリースされない可能性が高いとのことです。
AIコミュニティの一部のメンバーは、これをしばらく前から予測していました。ここでサム・アルトマンとの論争が始まります。現在のAI、特にGPTシリーズが減速しているように見える中、ゲイリー・マーカスが以前、ある記事で「ディープラーニングは壁にぶつかっている」と述べ、「AIが真の進歩を遂げるために必要なものは何か」という問いを投げかけています。
この記事を手短に要約すると、ゲイリー・マーカスはディープラーニングの限界を批判し、AIが画像や音声処理などのパターン認識タスクでは優れているものの、実際の推論、常識、理解力を必要とする領域では不十分だと主張しています。
彼は、ディープラーニングモデルが多くの場合、透明性と解釈可能性に欠ける「ブラックボックス」として機能していると指摘し、放射線学や自動運転車など、実生活で必要となる重要なアプリケーションにおける信頼性に関する懸念を提起しています。
後で話を戻すので、ここで重要なポイントを理解しておく必要があります。彼は、これらの欠点に対処するため、ディープラーニングと記号的推論を組み合わせたより統合的なアプローチを提唱しています。彼の見方は必ずしも一般的ではありませんが、特に2022年3月以降、彼は長期にわたってこの考えを積極的に主張してきました。
「ディープラーニングは壁にぶつかっている」という声明は、AIコミュニティで長い間繰り返されてきました。そして、AIが進歩するたびに、人々は「ほら、ディープラーニングは壁にぶつかっている」と言い、その後で驚くべき新しいベンチマークを示してきたのです。
もちろん、このような状況の中で、「これらの企業は高度なAIの構築に苦心している」「GPT-5は期待外れ」という記事や、「ディープラーニングは壁にぶつかっている」という2022年の記事を受けて、サム・アルトマンは昨日、あるいは今日だと思いますが、「壁など存在しない」とツイートしました。
サム・アルトマンだけでなく、OpenAIでSora AGIに取り組んでいるウィル・デオも興味深い発言をしています。彼は「スケーリングが壁にぶつかるのは、100%評価が飽和状態になった時だけだ」と述べています。これは、私たちのモデルを訓練している現在の評価方法が、2025年が本格的に始まり、特定のモデルの将来のイテレーションが登場する頃には完全に陳腐化するだろうということを意味しています。
ベンチマークが飽和状態になるという予測を述べているのはウィル・デオだけではありません。OpenAIのAMAでのサム・アルトマンの発言を見ると、2025年に向けた大胆な予測の一つとして、OpenAIはすべてのベンチマークを飽和させることができるだろうと述べています。これは、多くのベンチマークが非常に困難であり、時間の試練に耐えることを想定されていることを考えると、かなり大胆な主張です。
以前の声明「ディープラーニングは壁にぶつかっている」や、企業が高度なモデルの開発に苦心しているというニュース記事を思い出してください。ここでゲイリー・マーカスが最近述べたことをお見せしたいと思います。彼は「皆さん、ゲームオーバーです。私が予測した通り、GPTは収穫逓減期に入っています」と述べています。
正直なところ、評価に値する予測だったと思います。なぜなら、ゲイリー・マーカスは2024年末までに、「7~10個のGPT-4レベルのモデルが登場する」「大きな進歩はない」「GPT-5は登場しないか、期待外れになる」「価格競争が起きる」「誰にとっても大きな余地はない」「幻覚に対する堅牢な解決策はない」「企業の採用は控えめで、利益は7~10社で分け合うことになる」と予測していたからです。
AIコミュニティに長年携わってきた者として、これは信じられないほどの規模で目撃してきたことです。7~10個のGPT-4レベルのモデルが存在し、GPTシリーズには大きな進歩はありませんでした。もちろん、Q1の存在は承知していますが、最近では、これらのリーカーや報道関係者に話をした人々によると、GPT-5は登場していないか、期待外れだったとされています。
もちろん、価格競争も起きており、興味深いことの一つは、幻覚に対する堅牢な解決策がまだないことです。最近のAMAでも、OpenAIは幻覚が依然として取り組むべき大きな問題だと述べています。
これは全てGPTシリーズに関することを覚えておいてください。なぜなら、Q1シリーズについては、多くの人々が見過ごしている情報がたくさんあり、ここでサム・アルトマンが反論を始め、注目すべき点となっているからです。
ここからが動画の重要な部分なので、よく注意して聞いてください。Twitterで誰かがサム・アルトマンに、「Chat's Arc評価についてはどうですか?」と質問しました。Arc評価は現在、LLMにとって最も難しい評価の一つです。もちろん、LLMのベンチマークや評価には様々な種類がありますが、これが最も難しいものです。
なぜなら、この種の質問は、LLMが正確に何が起きているのかを暗記できないように設計されているからです。彼らがそのように設計した理由は、LLMが以前に見たことのない問題について、実際にどのように推論するかをテストしたいからです。大規模言語モデルに対する一般的な批判は、これだけの大量のデータを詰め込んでいるため、基本的には質問に答えるために必要なデータをモデルに適合させているだけで、テスト時にその答えを取り出しているだけであり、実際には解決策について推論していないというものです。
そのため、この評価は、以前に学習したことのない問題についてどのように推論するかをテストするために作られました。この評価に関して、画面に表示されている問題の解き方の例を見ることができますが、サム・アルトマンは「心の中で、私たちがこれを解決したと信じていますか?それとも信じていませんか?」と述べました。
私の心の中では、彼らはすでにこれを解決していると信じています。なぜそう考えるのか説明させてください。記憶に依存しないベンチマークであり、私たちがAGIへの正しい道筋にいることを証明するベンチマークとされているこのArc AGIベンチマークは、実際にすでに解決されていると思います。
昨日投稿した動画を覚えていますか?昨日、抽象的推論のためのテストタイム・トレーニングの驚くべき効果について話しました。この論文の主なポイントは、彼らが公開検証の精度で最先端の結果を達成し、Arc AGIベンチマークの公開セットで人間のスコアと同等の結果を得たということでした。
MITの研究者たちは、テストタイム計算という方法(OpenAIが使用しているのと同じ方法の一種)を使用して、62%という人間のパフォーマンスに匹敵する最先端の結果を達成しました。つまり、こう考えてみてください。LLMにとって最も難しい評価であるChat's評価で、MITの人々は61.9%を達成し、人間のスコアに匹敵する結果を得ました。
では、OpenAIがこの方法を中心にモデル全体を構築し、Q2やQ3の将来のイテレーションが私たちの想像を超える可能性が高いことを考えると、彼らがこのベンチマークでどのような結果を達成したと思いますか?
この非常に難しいベンチマークについて、本当に注目すべき点は、現在このベンチマークで最高スコアを持っているのは、かなり異なるアプローチだということです。画面を見てください。一番上がライアン・グリーンで、二段下がQ1プレビューです。
最も興味深いのは、ライアンのアプローチです。この動画の冒頭で、OpenAIのGPTシリーズモデルに対する主な批判の一つは、そのモデルが学習せず、ゲイリー・マーカスによれば、現在持っていないニューロシンボリックアプローチが必要だと述べたことを覚えていますか?
基本的に、Arc AGIベンチマークに取り組むライアンの実際のアプローチは、GPT-4を使用し、ニューロシンボリックアプローチを採用しており、最高レベルのベンチマークを達成しました。最高レベルのベンチマークを達成した彼のアプローチは、離散的なプログラム検索を伴うLLMを使用しており、これはOpenAIがQ1で行ったことと非常によく似ています。
つまり、この情報を全て推論すると、一方ではゲイリー・マーカスが「ディープラーニングは壁にぶつかっている」「ニューロシンボリックAIが必要だと言ったでしょう」「GPTが減速することについて私は完全に正しかった」と主張しています。ある意味で彼は正しいです。なぜなら、GPTシリーズは実際に減速しているからです。
しかし、現在起きているように見えるのは、別のパラダイムが急速に勢いを増していることです。なぜなら、現在のLLMが本当に苦戦しているこの評価を見ると、MITの人々がすでにこのベンチマークを打ち破り、基本的に人間レベルの推論を達成し、誰かがニューロシンボリックアプローチを使用して一方で72%、プライベートなものでは43%を達成しているのを見てきたからです。これは本質的にOpenAIが追求していることです。
そうだとすれば、数十億ドルを持つ研究所が、公に利用可能なものよりもさらに優れた技術を見つけ出していたとしても驚きません。そして、驚くべきことに、現在誰もが話題にしているこの同じ技術は、Alpha Goで使用されていたことで知られています。Alpha Goは、もちろん、ゲームで驚異的な超人的パフォーマンスを達成できた最初の超人的技術の一つです。Alpha Goがいかに驚異的だったかは、皆さんもよくご存じだと思います。
基本的に、これは誰もが勝者となる状況だと思います。なぜなら、AIが減速しているのか、加速しているのかについて議論している一方で、私たちは別のS字カーブパラダイムを迎えているのだと思います。GPTシリーズのパラダイムは潜在的に減速しており、一部の人々がそうではないと主張していても、3つの最先端の研究所からの証拠は無視するのが難しいと思います。
たとえリークであっても、自社のモデルのパフォーマンスが低下していることを公に認める企業はないでしょう。たとえそれが、彼らが重点を置いていない可能性のある以前のシリーズだとしてもです。Q1やこのテストタイム計算のパラダイムが、高度な方法で推論するAIの未来になる可能性が高いと思われます。
正直なところ、これは一般の人々が心配する必要のないことだと思います。なぜなら、Q1、Q2、Q3のようなモデルは、超高度な推論が必要な分野でのみ使用されるからです。これは日常的に使用するものではありません。ほとんどの人々は、日常的なタスクをうまくこなすことができるGPT-4レベルのモデルで十分満足するでしょう。
ベンチマークの飽和に関しては、ベンチマークが飽和状態になっても驚きません。なぜなら、サム・アルトマンが基本的に言っていることを実際に見てみると、テストタイムのグラフを思い出せば、これらのモデルはより多くのサンプルを提出することで改善されることがわかります。
例えば、Q1が問題あたり10,000個のサンプルを提出することを許可された時、彼らの競技の一つで金メダルのしきい値を達成しました。では、他の問題についても考えてみましょう。モデルがさらに困難な問題に対して100,000個のサンプルを考えたり提出したりできるようになったら何が起こるでしょうか?毎回ベンチマークを2%ずつ向上させることができるかもしれません。提出サイズを増やすにつれて、これらのベンチマークはますます飽和状態になっていく可能性が高いと思われます。
全体として、「壁は存在しない」という声明はかなり正確だと思います。また、現在のAIの状況は非常に混乱していると思います。なぜなら、一方ではAIが減速しているという人々の意見が正しく、他方では、この次のパラダイムについて彼らが正しいからです。