NVIDIAのポストBlackwellアーキテクチャを予想
はじめに
生成AI時代の勝ち組 NVIDIA, Microsoft, OpenAIの中でもNVIDIAの快進撃が止まりません。いよいよ時価総額3兆ドルを達成したNVIDIAの次の進化を考えます。
GPUアーキテクチャの生成AI対応
Ada Lovelace アーキテクチャの生成AI対応(2世代前)
Tensor CoreにFP8が導入されました。
Hopperの生成AI対応(1世代前)
TensorコアにFP8/FP16の混合精度を導入しました。Googleが深層学習には10
ビットあればいいという発表をしましたが、8ビットだけではきつかったようです。
Transformerを直接実行する16ビット浮動小数点と8ビット浮動小数点を扱うTransformer Engineを導入しました。
Blackwellの生成AI対応(最新世代)
第二世代Transfromer Engineが導入され4ビット浮動小数点や6ビット浮動小数点がサポートされました。
単にチップ内部を高速化するだけでなく、72個のGPUを持つドメイン内での高速通信や、クラスタ間での高速通信を通じて、大規模言語モデルの学習を高速化させています。高速のネットワークスイッチによる柔軟な大規模化を指向しています。AIデータセンターソリューションを強化しています。チップ、ネットワーク、ソフトウェア開発環境のすべてを提供するフルスタック・ソリューションが強みです。
次世代アーキテクチャの予想
GoogleやOpenAIが本気で飛躍的精度向上をねらっているなら、人間の生成するデータによる学習の限界を見越して、AIが生成するデータで学習する方向に行くと思います。これをNVIDIAと共有して、NVIDIAがそれに対応するアーキテクチャを出すとしたら、チップ上にデータ生成する部分を埋め込むことになると思います。
考えられる方法は3つあります:
チップ上に生成ユニットと学習ユニットを混在
チップ上に生成データを蓄積するメモリを増設
生成用チップと学習用チップを高速結合
一番簡単なのは三番目ですが、どうでしょうか。
次の革新は、学習データ生成までの学習ライフサイクルまでをチップ化する、と予想してみました。
おわりに
NVIDIAの次世代生成AI用アーキテクチャを個人的に妄想していみました。COMPUTEX 2024でNVIDIAのJensen Huangは2025年にはBlackwell Ultra、2026年にはRubinをリリースすることを予告しました ([NVIDIAc]) 。Rubinにはどんなアーキテクチャ的革新が盛り込まれるのか楽しみです。
参考文献
[ai300lab_a] AI半導体はAI時代の総合格闘技: NVIDIAの三位一体の強み https://note.com/ai300lab/n/n1ebafffd0903 2024年
[ai300lab_b] NVIDIAはAIデータセンタ・ソリューション・カンパニー https://note.com/ai300lab/n/n15767d260259 2024年
[NVIDIAa] H100 Transformer Engine が AI トレーニングを加速、精度を損なわずに最大 6 倍のパフォーマンス向上を実現 https://blogs.nvidia.co.jp/2022/04/07/h100-transformer-engine/ 2022年
[pcwatch] AI特化設計になったNVIDIA Blackwell、並列性を向上する仕組みが強化 https://pc.watch.impress.co.jp/docs/column/ubiq/1577897.html 2024年
[NBIDIAb] 広い地平線:NVIDIA の基調講演が指し示す AI のさらなる進化
https://blogs.nvidia.co.jp/2023/09/06/hot-chips-dally-research/ 2024年[NVIDIAc] NVIDIA CEO Jensen Huang Keynote at COMPUTEX 2024 https://www.youtube.com/watch?v=pKXDVsWZmUU NVIDIA 1h47m39s 2024年
[日テレnews] そのCEOは「もはや神」──エヌビディア、世界2位の時価総額 “アップル超え”470兆円 圧倒的な「9割シェア」の理由 https://news.yahoo.co.jp/articles/bb8ccf805ed623956b8001f84bbbd7f877f9f9f4 2024年