見出し画像

AIの未来を決定づけるスケーリング則 | YC デコード

3,856 文字

YC春季バッチの応募締切は2月11日です。採用されれば50万ドルの投資と、世界最高のスタートアップコミュニティへのアクセスが得られます。今すぐ応募して、私たちと共に未来を築きましょう。
大規模言語モデルは、ますます大きく、そしてよりスマートになっています。ここ数年、AIラボは winning strategy(勝利の戦略)を見出したように感じています。より多くのパラメータ、より多くのデータ、より多くの計算能力でスケールアップし続け、モデルは改善し続けています。ムーアの法則のように、AIでは18ヶ月ごとの性能倍増が、今や6ヶ月ごとになってきています。
しかし、それも終わりを迎えようとしているのでしょうか?スケーリングの時代は終焉を迎えるのか、それとも私たちは、AIを永遠に革新することを約束する新しいスケーリングパラダイムの入り口に立っているのでしょうか。
2019年11月、OpenAIはGPT-2をリリースしました。1.5億のパラメータを持つ、当時最大のモデルでした。翌夏、その後継モデルGPT-3がリリースされ、これは私たちが見たことのないものでした。GPT-3は、はるかに有用で使いやすいだけでなく、GPT-2の100倍以上の大きさでした。スケーリング則の時代が到来したのです。
GPT-3以前、LLMはすでに大規模化していましたが、そのサイズ、データ、計算能力の増加が価値あるものかどうかは誰にもわかりませんでした。モデルを100倍大きくすれば100倍良くなるという保証はありませんでした。逓減する収益に直面するかもしれなかったのです。
2020年1月、OpenAIのJared Kaplan、Sam Mccandlish、そして同僚たちが影響力のある論文「Scaling Laws for Neural Language Models」を発表するまで、この分野は注目し始めませんでした。
AIモデルのトレーニングをレシピに例えると、3つの主要な材料があります。モデル自体、トレーニングに使用されるデータ、そしてトレーニングに使用される計算能力です。より大きなモデルはより多くのパラメータを持ち、これらは予測を行うために調整・トレーニングされるニューラルネットの内部値です。これらのモデルは通常、LLMでは単語や単語の一部であるトークンで測定される、より多くのデータでトレーニングされます。
最後に、これらの大規模モデルのトレーニングには計算能力が必要で、より多くのGPUをより長時間稼働させ、より多くのエネルギーを使用することを意味します。
スケーリング則の論文が明らかにしたのは、パラメータ、データ、計算能力の3つすべてを増やすことで、モデルの性能が滑らかで一貫した改善を示すということでした。それはべき乗則の形で現れました。性能は、アルゴリズムよりもスケールに大きく依存することが判明したのです。
その年の後半、OpenAIからの更なる研究で、これらのスケーリング則が他の種類のモデルでも機能することが確認されました。テキストから画像、画像からテキスト、さらには数学においても、同じスケーリング則が存在していました。
しかし2020年初頭、LLMのスケーリング則はOpenAI以外ではほとんど知られていませんでした。ただし、一人の例外がありました。匿名の研究者であり作家のGwernは、彼が「スケーリング仮説」と呼ぶものに最初に注目した人物の一人でした。サイズ、データ、計算能力をスケールアップすれば、知性が現れる。おそらく知性とは、多くの計算能力を多くのデータと多くのパラメータに適用することに過ぎないのかもしれません。Moravec、Legg、Kurrが正しかったのかもしれません。
Gwernの投稿はスケーリング則を主流にもたらし、時間とともに、静かな観察から始まったものがAI開発の基本原則へと急速に変化していきました。
しかし、OpenAIの研究はその一部に過ぎませんでした。2022年、Google DeepMindは独自のスケーリング則研究を発表し、重要な欠落部分を追加しました。モデルを大きくするだけでなく、十分なデータでトレーニングすることも重要だということが判明したのです。
研究者たちは、与えられた計算予算に対して最適なモデルサイズとトレーニングデータを見つけようとしていました。そこで、異なるサイズの400以上のモデルを異なる量のデータでトレーニングしました。その結果は驚くべきものでした。
彼らの研究は、GPT-3のような以前のLLMが実際には十分なトレーニングを受けていなかったことを示唆していました。これらのモデルは巨大でしたが、その潜在能力を完全に実現するのに十分なテキストでトレーニングされていなかったのです。
これを検証するために、彼らはChinchillaをトレーニングしました。GPT-3の半分以下のサイズですが、4倍多いデータでトレーニングされたLLMです。そして、Chinchillaは2倍、3倍のサイズのモデルよりもはるかに優れていることが判明しました。
いわゆるChinchillaスケーリング則は、最適なモデルのトレーニングはモデルを大きくするだけでなく、十分なデータを与えることも重要だということを意味していました。Chinchillaは、今日私たちが持つGPT-4o、Claude 3.5 SonnetなどのフロンティアAIモデルのトレーニングへの道のりにおける大きなマイルストーンでした。ラボはスケーリング則を信頼し、着実により良いモデルを得ることができることを学びました。
では、AIの未来は永遠により大きなモデルを作り続けることなのでしょうか?
最近、AIコミュニティ内で、私たちがついにスケーリング則の限界に達したのではないかという議論が多く交わされています。最新世代のモデルがより大きく、より高価になるにつれて、能力がプラトーに達し始めているという主張もあります。実際、ここ数週間だけでも多くの議論があります。現世代のLLMモデルでは、少数の企業が頂点に収束していますが、私たちは皆、次のバージョンにも取り組んでいます。同じようなペースでGPUを増やしていますが、知性の向上は全く得られていません。
その間、主要なラボから失敗したトレーニング実行や収益逓減に関する噂が漏れ出ています。他の人々は、新しいモデルをトレーニングするための高品質なデータの不足も主要なボトルネックになっているのではないかと推測しています。
一つの実践的な問題は、様々な理由でデータが不足する可能性があることです。それは起こらないと思いますが、非常に単純に見ると、私たちは今そこまで遠くない位置にいます。つまり、スケーリングカーブを継続するためのデータがないのです。
では、古いスケーリング則がその効果を失い始めているとすれば、次は何が来るのでしょうか?新しい種類のモデルからの、スケーリングの新しいフロンティアが登場したらどうでしょう?
OpenAIの新しい推論モデルクラスは、潜在的な新しい方向性を示唆しています。以前のビデオで説明したように、o1は独自の思考の連鎖を使用して複雑な問題を考え抜くことを学びます。OpenAIの研究者たちは、o1が考える時間が長くなるほど、より良い性能を示すことを発見しました。
この戦略がどれだけうまくスケールアップし続けるかは、すぐには明らかではありませんでした。しかし、その後継モデルo3の最近のリリースにより、この新しいパラダイムのスケーリングには限界がないように見えます。
o3は発表時に大きな話題を呼びました。AIには手が届かないと考えられていたベンチマークを次々と打ち破ったのです。ソフトウェアエンジニアリングから数学、PhD レベルの科学的問題まで、o3は容易に従来の最高水準の結果を超えました。
o3は前任者からの小さな改善ではありません。それは大きな飛躍であり、OpenAIの研究者たちは、この軌道が続くと信じるあらゆる理由があると言います。それは人工汎用知能への道を歩んでいるかもしれません。
トレーニング時のモデルサイズを拡大し続ける代わりに、研究者たちは思考の連鎖のために利用可能な計算能力の量(テスト時計算とも呼ばれる)をスケーリングすることに焦点を移すようです。
より長く考えることを可能にすることで、o1やo3のようなLLMはその場で more compute(より多くの計算能力)を活用し、より困難な問題に対して知性をスケールアップすることができます。
事前トレーニングはプラトーに達したかもしれませんが、テスト時計算のトレーニングにより、OpenAIは全く新しいスケーリング則のパラダイムを切り開いたかもしれません。これにより、私たちが考えもしなかった能力が解き放たれる可能性があります。
大規模言語モデルは、人工汎用知能への探求における重要な要素です。スケーリングの同じ原則は、他のモデルにも当てはまるようです。画像拡散モデル、タンパク質折りたたみモデル、化学モデル、さらには自動運転のようなロボット工学のためのワールドモデルにも適用されます。
一つ明らかなのは、大規模言語モデルはミッドゲームかもしれませんが、他のモダリティのスケーリングについては、私たちはまだ明らかにアーリーゲームにいるということです。シートベルトを締めてください。

いいなと思ったら応援しよう!