生成AIのスケーリング則の現在地点（2024年11月）

2024年11月25日 12:13

生成AIの潮流を大きく左右するスケーリング則の現在地点についてお話します。

スケーリング則

スケーリング則の一般的な理解

スケーリング則 (Scaling Law)とは一般的には2つの数量の間の相関関係を主張する法則です。半導体の微細化により性能が向上するというようなスケーリング則が有名です。

生成AIのスケーリング則

生成AIの2020年代の加速を後押ししているのがスケーリング則です。生成AIを進化させたOpenAIの原動力がスケーリング則への確信です。
簡単に言えば、パラメータ数の大きなモデルを大量のデータで大量の計算をすれば精度はあがる、というものです。
2020年にOpenAIが論文を出しました([kaplan])。Scaling Lawを一言で説明するなら「Transformerの性能はたった3つの変数のべき乗則に支配されている」というものです ([deeplearningblog])。スケーリング則の有効範囲には上限がない可能性です．つまり，理論上は3つの変数を上げ続ければTransformerの性能は無限に上がり続けることを意味します．OpenAIはこの原理に基づきGPT-3を開発し世界をあっと言わせるChatGPTのGPT-3.5につなげました。

スケーリング則を推し進めるAI半導体

Ray Kurzweilが2005年にThe Singularity is Nearを書いたときにその原動力としてあげたのがムーアの法則です。18か月で計算能力が2倍になる（同じ計算能力の半導体のコストが半分になる）というものです。
MicrosoftのCEO Satya NadellaがIgnite 2024でGPUにおいては年に4.2倍になっていると述べています ([microsoft])。計算力が年に1.5倍でもシンギュラリティが起こるのに、それは2.6倍に加速しています。
NVIDIAは最新GPU Blackwellの出荷を始めました。サーバで加熱しすぎるとかいろいろ言われていますが、生成AI用の最新GPUはBlackwell一択です。BlackwellがなければHopperを買うしかないのでNVIDIA一強は続きます。
NVIDIAは来年にはBlackwell Ultra、その翌年にはRubin、その次はRubin Ultraと続き構想を発表しています ([pcwatch])。そんなに都合よく速度があがるのかと思いますが、AI半導体用の次世代チップHBM3e, HBM4が出て、それに対する接続数を増加すれば性能はあがるようです（[vengineer])。スケーリング則をバックアップするGPUの進化は3年後まで間違いないです。MicrosoftがNVIDIAの動向を知っていて年4.2倍といっているとすると、3年後には74倍です。
スケーリング則が成り立つならそれだけ精度性能も上がることになります。

スケーリング則の現在地点

従来のAIはデータで訓練したものに対応した結果が出るというものでした。画像認識などがその例です。
スケーリング則は徹底的に言語世界を圧縮すればそこから質問に対応して幅広く対応できる回答が得られるというものです。このことはAIの可能性を大きく広げました。
2024年においてはスケーリング則はさらに拡大しようとしています。

計算中のスケーリング則 (OpenAI)
推論におけるスケーリング則 (MIT)

前者は、OpenAIはo1-previewのリリースにあたり、訓練時ではなく、回答を作る推論時においても計算量を増加させればスケーリング則が成立することを2024年9月に示しました ([openai])。GPUをまわせば同じモデルでも精度を上げることが可能であることを示しています。
一旦、回答を生成してから、もう一度考えてみるテクニックをプロンプトエンジニアリングでは Reflexion（熟考、反省）と言います。人間でもよくよく考えるともっといい考えが浮かぶということはあります。それの生成AI版です。機械が考え直すともっといい解が得られるというのは直観には反します。しかし、人間でも起こることは生成AIでも起こると思えば納得でもあります。

後者は、2024年11月にはMITから推論中にさまざまなデータに基づいて例を作り、そこから学習することで推論精度を上げる論文を発表しました ([Akyürek])。人間でも数学の問題が出たとき、いくつか例を作ってみて、そこから推論するということはあります。これの生成AI版です。
o1-previewに対応してAlibabaが出した推論対応の大規模言語モデルがQwen2.5です。Matthew BermanがQwen2.5 がo1-previewとは違い、あらかじめ推論処理フローを生成してそれに基づいて推論をしている推論のSoTA（最高値）を出す大規模言語モデルを紹介しています([matthewberman])。
推論の場合にはいろいろな仮説を作りそれを検証して推論することが必要です。1次元的に回答を生成する生成AIには苦手な分野と思われていました。ソフトウェアの自律エージェントなどでも戦略部分を生成する生成AIとその連略を実行する部分を別に実行するAlphaCodiumなどがあります([ridnik] [ai-scholar])。これをプロンプトエンジニアリングではなく言語モデル内部に埋め込んでいるようです。当然、戦略や検証に費やす計算時間を拡大すれば精度があがっていくと思われます。
Writerは回答しながらファインチューニングする大規模言語モデルを提案してます [writer]。ここまでいくとスケーリング則なのかどうかもわからないですが、答えを考えながら学習していくのは人間でもありそうなのでこれもひとつの方向性です。
訓練側はもちろん推論側でも大量のGPUを消費して精度をあげる準備は着々と進んでいます。

生成AIの行き詰まり

生成AIが行き詰まりを指摘する人たちもします。GPT-4が2023年3月にリリースされてからGPT-4 Turbo, GPT-4oとマイナーチェンジしながらも次のメジャーバージョンが出ないこともその論拠の一つです。
Gemini 1.5, Claude 3.5, Llama 3.2などそれなりに追従している言語モデルが出ていることも確かです。
しかし、推論時のスケーリング則が成立するなら、訓練側で行き詰っても問題はないようです。
OpenAIの元CTO Mira MuratiがOpenAIを退社して新しい会社を作りました。彼女はOpenAIからポストトレーニングの専門家を引き抜いていったようです。
訓練の風下、推論での改善はまだまだ続きそうです。

むすび

訓練側のスケーリング則は衝撃のGPT-3登場の原動力になりました。
スケーリング則は他の分野にも広がり、新しいイノベーションの準備をしています。大量に計算資源を投入すれば問題は解けるならば話は簡単です。
GPT-3時代にはスケーリング則への確信と集中がOpenAIを無名の非営利研究所から生成AIの革命児へと成長させました。
今後3年にNVIDIAの作り出す強大な計算資源を誰がどう活用するのかが興味深いです。

参考文献

[ai-scholar]【AlphaCodium】プログラミングに特化した最高性能のコード生成手法 https://ai-scholar.tech/articles/large-language-models/alpha-codium 2024年
[Akyürek] Ekin Akyürek, Mehul Damani, Linlu Qiu, Han Guo, Yoon Kim, Jacob Andreas, The Surprising Effectiveness of Test-Time Training for Abstract Reasoning, https://arxiv.org/abs/2411.07279 2024年
[deeplearnngblog] OpenAIが発見したScaling Lawの秘密 https://deeplearning.hatenablog.com/entry/scaling_law 2021年
[kaplan] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei, Scaling Laws for Neural Language Model https://arxiv.org/abs/2001.08361 2020年
[matthewberman] AI News: Musk Says AGI 2026, Open-Source Q*, Flux.1 Updates, Quantum AI, and more! https://www.youtube.com/watch?v=49bxxSns1jk Matthew Berman 12m15s 2024年
[microsoft] Full Keynote: Satya Nadella at Microsoft Ignite 2024　https://www.youtube.com/watch?v=3YiB2OvK6sY Microsoft 1h16m19s 2024年
[openai] Learning to Reason with LLMs https://openai.com/index/learning-to-reason-with-llms/ 2024年
[pcwatch] NVIDIA、次世代CPU/GPU「Rubin/Vera」ロードマップ発表 https://pc.watch.impress.co.jp/docs/news/event/1596765.html 2024年
[ridnik] Tal Ridnik, Dedy Kredo, Itamar Friedman: Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering　https://arxiv.org/abs/2401.08500 2024年
[vengineer] NVIDIA Rubin と Rubin Ultraの違い　https://vengineer.hatenablog.com/entry/2024/06/04/080000 2024年
[wesroth] ミラ・ムラティの新事業 https://www.youtube.com/watch?v=tjuzwQ-mpBU Wes Roth 10m14s 2024年
[writer] Introducing self-evolving models https://writer.com/engineering/self-evolving-models/ 2024年