見出し画像

リーク:『GPT-5は収益逓減を示す』、サム・アルトマン:『笑』

6,660 文字

昨日のOpenAIのリークに基づいて、言語モデルの進歩がW字カーブを描いているという見出しを書くのは簡単でしょう。また、OpenAIのCEOであるサム・アルトマンの最新の発言だけを都合よく引用して、大文字で煽り立てるような見出しを書くのも同じように簡単やと思います。
でも、今回は見出しの裏にある微妙なニュアンスを伝えたいと思います。そのために、いくつかの新しい論文も見ていきましょう。真実は、その両極端の間のどこかにあって、OpenAIですら正確にはどこにあるかわからへんのです。
まずは、LLMやAI全般についての悲観的なケースだけに焦点を当てた場合の状況を見てみましょか。OpenAIの内部関係者が「The Information」にリークした情報があって、その記事は昨日遅くに公開されました。
その記事によると、ChatGPTのユーザー数は急増してるものの、その基盤となる言語モデルの基本的な要素の改善率は鈍化してきてるみたいです。この記事は特定の製品やモデルからの出力生成方法について語ってるんじゃなくて、基盤となるモデルそのものについて語ってるんです。
OpenAIの現在の中核モデルはGPT-4.0で、次のモデルは自然とGPT-5と呼ばれるはずですが、この記事によると、より好まれてる名前は「Orion」みたいです。ただ、やっぱり話してるのは、少なくとも初期段階での、その中核となる事前学習モデルについてです。
このOrionの新モデルは、かなり decent(まともな感じ)に見えたそうです。これはサム・アルトマンから直接コメントを聞いた人物からの情報なので、おそらくOpenAIのスタッフです。その人物によると、OpenAIがこの新しいOrionモデルの学習プロセスの20%しか完了してへん段階でも、知性とタスクの遂行能力、質問への回答能力の面でGPT-4と同等やったそうです。
これは悪くない感じに聞こえますよね。でも、学習が完了した時、この人物によると、品質の最終的な向上は、GPT-3とGPT-4の間のジャンプと比べるとはるかに小さかったんです。つまり、以前のモデルより確かに優れてはいるけど、以前のような大きな飛躍はなかったということです。
記事ではもう少し詳しく説明されていて、会社の一部の研究者は、Orionがコーディングなどの特定のタスクで、その前身より確実に優れているとは言えへんと考えてるそうです。言語タスクでは優れてるかもしれませんが、より大きなモデルのトレードオフとして、一般的に遅くなって、より高コストになるということを覚えておいてください。
記事によると、進歩が減速した理由は何やったんでしょうか?ざっくり言うと、GPT-4は利用可能なウェブのほとんどを学習データとして使ってしまったと考えられます。著作権を無視して、基本的に手に入るものは何でも学習に使ったんです。その時点で、さらに10倍、つまり1桁スケールアップするのは非常に難しくなります。だって、その追加データをどこから得るんでしょう?
ただ、記事もある程度推測してるのがわかります。というのも、モデルの学習にコストがかかりすぎてるだけかもしれないという仮説も出してるからです。ゴメス・ブラウンの発言を選択的に引用して、次世代の学習には数千億ドルのコストがかかることになり、ある時点でスケーリングのパラダイムが破綻すると述べています。
これが選択的な引用やということは、今日のゴメス・ブラウン自身の発言でわかります。彼は選択的に引用されたと述べ、AIの進歩は近い将来減速することはないと考えてるそうです。
でも、記事のテーマは明確です。あるOpenAIの投資家の言葉を引用すると、「AIの学習に使用するGPUの数を増やしてるけど、それに見合った知能の向上は全く得られてへん」とのことです。また、最後に引用された別のアナリストは、「今のところ、LLMのパフォーマンスは plateau(停滞期)に入ってると言えるかもしれへん」と述べています。
Simple Benchの作者として、人間なら犯さへんようなばかげた間違いを最新モデルがする例を山ほど挙げることもできます。そして、サム・アルトマンやOpenAIを悪く見せるような引用をさらに加えて、それで終わりにすることもできます。
逆に、最も刺激的な発言だけに焦点を当てた動画を作ることもできます。例えば、ここ数日でアルトマンは、私たちが大きな飛躍の寸前にいることを示唆する発言を4回してます。
まず彼は「AGIに到達するために何をすべきかわかっている」と言います。「これは初めてです。実際に何をすべきかわかったと感じたのは。AGIを構築するまでにはまだ膨大な作業が必要やと思います。いくつかの既知の未知はありますが、基本的に何をすべきかわかってると思います。時間はかかるし、難しいですが、それはものすごくわくわくすることです。」
2番目に、そしてちなみにこれらは楽観度の順にだいたい並んでますが、彼は「スケーリングはまだまだ続く」と言います。「モデルの能力向上の軌跡は今まで通り続くんでしょうか?私の答えは、まだまだ長く続くというものです。それを疑ったことはありますか?全く。」
それから、彼は「息を呑むような研究結果」について神秘的に言及します。「この1ヶ月で何が驚きでしたか、サム?」「話せない研究結果があるんですが、それは息を呑むほど素晴らしいものでした。」
4番目、そしてこれが最も極端な例やと思いますが、AIを使って物理学の全てを解明することを示唆しました。「物理学の全てをカバーするという先ほどの話ですが、私は物理学者になりたかったんです。でも、いい物理学者になるほど賢くなくて、別の方法で貢献せざるを得ませんでした。でも、誰か他の人が今からこれを使って物理学の全てを解明してくれると本当に信じてます。そういう時代に生きてることにすごくわくわくしてます。」
少なくとも彼は自分の発言の誇大さに気付いてるようです。Twitterアカウント「typed female」は、アルトマンの発言を冗談めかしてこう引用しました。「私たちは神を作るまであと数千日です。地球に太陽を作り、物理学を統一し、価値ある死者を復活させるでしょう。」インタビュアー:「これはスタートアップにとって本当にインパクトがありそうですね。」アルトマン:「間違いなく。」
どのニュースや発言を引用するかを選ぶことで、全く異なるストーリーを提示できることがおわかりいただけたと思います。では、真実は何で、それをどうやって知ることができるんでしょうか?
証拠を示す前に簡単なヒントを出しますと、OpenAIですらわかってへんそうです。これは後ほど引用する重要な研究者の発言によるものです。
この「Frontier Math」という論文は、現在のAIモデルが数学の最先端で競争できるかどうかという結果を示してるだけでなく(答えは「できない」です)、それが可能になる前に何が起こる必要があるかも示してくれてて興味深いです。
彼らは約100の問題を作成しました。これは、一流機関の教授、国際数学オリンピックの問題作成者、フィールズ賞受賞者(数学のノーベル賞みたいなもんです)など、60人の数学者との協力で開発されました。これらの問題は通常、専門の数学者でも解くのに何時間も、時には何日もかかるそうです。
テレンス・タオ(広く人類最高の知性の持ち主の一人と見なされてる)でさえ、「10個の問題のうち、原則的に解けるのは解析学の3つだけです。他は解き方がわからないけど、誰に聞けばいいかはわかります」と言ってます。
最新の言語モデルはどうでしょう?これらの問題の1~2%しか解けません。ただし、これは公開されてない問題、つまり学習データにない新しい問題なので、あまり恥ずかしい結果ではありません。
このベンチマークは、ある意味で炭鉱のカナリアのような役割を果たすはずです。なぜなら、どんなモデルでも「物理学の全てを解く」前に、このベンチマークで少なくとも50~90%は取れると思うからです。なぜ100%じゃないのか?それは、ベンチマーク自体に約1%のエラー率があると推定されてるからです。
ちなみに、他のベンチマーク、例えばMMLUには約10%のエラー率があることが知られてます。つまり、あなたの視点によって、これはモデルの残された欠点についての厳粛な警鐘とも、実は驚くほど印象的な結果とも取れるわけです。
Gemini 1.5 Proの長いコンテキストウィンドウのおかげで2%取れたのか、それとも論文のN9ページで1%と述べてるQ* previewが過小評価されてるのか。論文では、これらの結果は1回の評価によるものであり、複数回の試行でテストした場合、Q* previewが最強のパフォーマンスを示したことを認めています。
もちろん、これはQ* previewだけで、完全版のQは多分次の2週間くらいで出るということを覚えておく必要があるでしょう。
ただし、悲観的なケースだけを提示したいなら、Frontier Mathの問題の難しさについて語った数学者のこの発言に焦点を当てることもできます:「ベンチマーク問題は、オリジナルの証明を考え出すのとはちょっと違います。数学の多くは、開発や研究に何年もかかり、それをベンチマークに落とし込むのは本当に難しいんです。」
一方、ハイプ(誇大宣伝)に乗りたいなら、Anthropicの共同創業者のこの発言を聞くこともできます:「これらのものが馬鹿だと言ってる人たちは、NBAのオールスターが設計したバスケットボールの評価テストのような数学テストを作ってるんです。なぜなら、これらのものがバスケットボールにめちゃくちゃ強くなってしまったので、他のテストは6ヶ月以上もたへんのです。AIモデルによって粉砕されてしまうからです。」
ちなみに、私自身のベンチマークであるSimple Benchが次の6ヶ月で粉砕されるかどうかを見るのも面白いでしょう。Anthropicの新しい小型モデルであるClaude 3.5 Haikuをテストしたところ、GPT-4 Miniを押しのけて13位(15.6%)になりました。
Simple Benchは一般的な推論をテストするもので、人間のベースラインは80%台半ば、最先端モデルは現時点で40%台前半です。
この時点で、楽観と悲観の間で迷うのは全く当然やと思います。でも、私はどう考えてるんでしょうか?
さらなる進歩は、全く異なる軸からもたらされる可能性があります。データ効率です。結局のところ、最先端の数学の問題を解くには、天才であるか、ほとんど存在しない関連する学習データにアクセスできる必要があります。タオによると、関連する内容を含む論文はたった十数本しかないそうです。
もちろん、数学がすべてじゃありません。多くの人が正当にも、AGI(汎用人工知能)は、モデルが最先端の数学を圧倒できるようになるずっと前に到来する可能性があると主張するでしょう。
でも、最先端の数学を解くという課題は、他の分野を解くことと大まかに似てます。だから私は問いかけたいです。OpenAIのような企業は、関連する推論ステップを含むわずかな論文にアクセスできるんでしょうか?そして、たとえアクセスできたとしても、モデル自体が、何兆という単語の中からそれらの論文に含まれる推論ステップというシグナルをノイズから取り出すことができるんでしょうか?
OpenAIのQファミリーのモデルは、少なくともそれが可能であることを示唆してます。もしこのチャンネルを見始めたばかりで、Qファミリーのモデルについて話すときに何のことを言ってるのかわからへん場合は、その話題についての私の動画をチェックしてみてください。
非常に簡単なtl;dr(長すぎるから読まへん)版で言うと、そのテスト時の計算パラダイムは、モデルが出力を生成する時(推論時)に、必要な推論ステップを含む数万の出力の中から1つを抽出できる可能性があることを示唆してます。
もしそれが正しければ、Frontier Mathベンチマークでの急速な進歩が期待できます。もちろん、モデルの重みが由来する学習データのどこかに、それらの推論ステップが見つかる必要がありますが、それさえあれば進歩は続けられます。
そして、ここで私たちを全ての発端となった記事に戻しましょう。たとえOpenAIが基盤となるモデル(GPT-5またはOrion)の品質をより遅いペースでしか改善できないとしても、それはより良い推論出力につながります。
簡単に言うと、モデルに1万個の異なる回答を出力させる場合、少なくともその中の1つが正しい答えである可能性が高くなるからです。そして、基盤となるモデルの品質が少しでも良くなれば、そのノイズの中から正しい答えを見分ける可能性も大幅に高くなります。
真実の地盤現実は、あらゆるものが素晴らしいという見方や、全てが壁にぶつかったという見方よりも、はるかに微妙で複雑であることを伝えられたと思います。
最後に、かなり長い間匂わせてきた引用を紹介します。Qファミリーのモデルの学習の背後にいるスターの一人は、少なくとも1~2年は進歩が続くと考えてるけど、それがどれくらい続くかは単純にわからないと言ってます:
「まだはっきりしませんね。基本的に、なぜ私たちが壁にぶつかるはずだという多くの仮定は、この新しいパラダイムがあることを考えると、完全に再評価する必要があります。私たちはまだそれを理解しようとしてる段階です。他の多くの人もそれを理解しようとすると思います。そして今のところ、答えはわからないということです。事前学習の限界を見て、それが継続的な進歩の妨げになるだろうと言うのは、もはや妨げとはならないと思います。」
OpenAIですらスケーリングがどこまで進められるかわからないのに、私たちにわかるはずがありません。
でも、もっと明るい話題で締めくくりましょう。AIのすべてがテキストベースのベンチマークや推論についてというわけじゃありません。よく知られてるRunwayの共同創業者兼CEOによると、OpenAIは約2週間後についにSoraをリリースする予定だそうです。
Soraは、もちろん2月に最初に紹介された、あの信じられないようなビデオ生成モデルです。だから、私とは違って、推論の進歩が完全に止まると信じてる人でも、他のモダリティでの進歩は止まらないかもしれません。
その違いは何で説明できるでしょうか?単純に、YouTubeなどの動画や画像から、テキストよりもはるかに多くのデータを学習できるからです。実際、豊富なデータがある分野では、進歩が急速に続くと予想されます。
例えば、音声認識を見てみましょう。このチャンネルでも以前話題にしたチャンネルスポンサーのAssembly AIとそのUniversal Oneモデルですが、私にとっても驚きだったんですが、今やUniversal 2が登場しました。
研究ページへのリンクを下に貼っておきます。説明すべきことが本当にたくさんあるからです。言うまでもありませんが、Universal 2の単語エラー率は、他のすべてのモデルと比べてはるかに低いです。
だからこそ、何度も言ってるように、私はAssembly AIにチャンネルスポンサーになってもらえないかと実際に連絡を取りました。
そういえば、私のパトレオン「AI Insiders」でのポッドキャストと独占動画もチェックするの忘れんといてください。今、動画とポッドキャストを合わせて40本近くになってます。
もしこの動画を見て、過度にハイプされることも過度に懐疑的になることもなく終われたなら、私の仕事は達成されたことになります。それは私たちをちょっと変な場所に置き去りにすることはわかります。
そこで、その奇妙さの一端を捉えたAI生成の動画を紹介して終わりにしましょう。
「ロボットは交響曲を書けるのか?ロボットはキャンバスを美しい傑作に変えられるのか?あなたは...」
この動画を作ってくれたDAR 3Dに拍手を。そして最後まで見てくれた皆さん、本当にありがとうございます。素晴らしい一日を。

いいなと思ったら応援しよう!