NVIDIA GPUアーキテクチャのAI対応の系譜

ai300lab

2024年2月24日 15:20

はじめに

AI半導体で市場シェア8割、今、株式市場で大人気のNVIDIAのGPUアーキテクチャにおけるAI対応の変遷を調べてみました。今週、時価総額2兆ドルに到達したそうです。

NVIDIA GPU アーキテクチャの変遷

Tensorコアが乗り始めて以来のNVIDIA GPUアーキテクチャの変遷は以下の通り（発表年、アーキテクチャ名、CUDA[Compute Capability]バージョン、記述）：

2018 Volta CUDA7.0 Tensorコア、次世代NVLink
2018, 2019 Turing CUDA7.5 新TensorCore
2020 Ampere CUDA8.6 第3世代NVlink, Tensor (Flot32, Float64) 第3世代TensorCore
2022 Ada Lovelace CUDA8.9 第4世代Tensorコア FP8, CUDA コア(FP32)
2023 Hopper CUDA9.0 TransformerEngine, 第4世代 NVLink

AI対応

Tensorコア

Tensor計算をする計算ユニットです。Tensor計算自体は単なる行列計算なのでAI学習でなくても空間情報処理やグラフィックス描画でも使えます。Voltaで導入され、Ada Lovelaceで第4世代になりました。
浮動小数点演算を前の世代 (Ada Lovelace)の3倍で処理します。

Transformer Engine

HopperではTensorコアは数的増強にとどまり、質的な変化はTransfromer Engineでもたらされました。Transformerは大規模言語モデルの中枢で使われるモデルです。2017年にGoogleがTransformerを発表するまでは学習に高い並列度を持ち込むことは困難でした。OpenAIがTransformerをもとにGPTを作って成功してからは大規模言語モデルの学習はTransformer一択となっています。これを半導体レベルでサポートしたのがHopperです。
同時にTransformer Engine Libraryが公開されています。今は1.3.0版です。

NVLink

チップの中だけで学習が終わらないのが大規模学習モデルです。チップ間の通信の高速性が重要になります。GPUのプログラミングの場合、GPUにデータをロードする時間も無視できないので、この部分の高速化がきいてきます。HopperではNVLink第4世代が導入されています。毎秒 900 ギガバイト (GB/s)になっています。
NVLinkは確実に高速化し、AI学習のスケーリングを支援しています。ただのチップの中だけでなくチップ間データ転送速度に注力しているのも強みです。

システム化

単にGPUアーキテクチャをHopperにするだけでなく、Hopperを組み込んだシステムをAIスーパーコンピュータとして提供しています。256機のGH200を1つのGPUとして扱うことが可能で、144TBメモリ、900GB/sのGPU間帯域幅などを実現しています。これだけあったら他に何もいらないと思います。AI学習のスケーリングが飛躍的に容易になると思います。144TBあっても足らないといったらOpenAI, Google, Metaだけではないでしょうか。そんなに高品質なデータを作るほうが大変だと思います。

2026年まで敵なしの予感

半導体チップの上に直接Transformerを大規模に埋め込んだのがHopperです。巨大IT企業ならTransformerの重要性は認識しているので自社AI半導体に直接埋め込むのは考えつくと思います。
大規模言語モデルの学習は単なる学習ではなくスケーリングが重要になります。大規模なデータを入力したときの並列性とそのときの運用の管理です。この部分はAI学習とネットワークと半導体設計を三位一体で具現化するNVIDIAの得意なところです。
別記事で「NVIDIAが暴落する日がAI革命の本当の始まり」を書きました。これはあくまで巨大IT企業が自前大規模言語モデル開発をあきらめる日を想定しています。他の企業が競争優位を奪うというシナリオも原理的にはあり得ますが、Hopperアーキテクチャを見る限り、当分なさそうです。
新しいアーキテクチャを設計し検証し、それに合わせたソフトウェアエコシステムを作るということに他の企業が簡単に成功するとは思えません。

おわりに

半導体会社でありながらAIのソフトウェア部分にも強いNVIDIAには脱帽です。株式時価総額2兆ドルをこえ、まさに飛ぶ鳥を落とす勢いのNVIDIAです。どこまで行くのでしょうか。
ソフトウェアの世界の方程式として「半導体→ネットワーク→サービス」という進化の順序があります。NVLinkなどを見ているとネットワークのところまでNVIDIAでカバーできそうです。
前段階が成長すればするほど最後のサービスのところも高みに到達するので楽しみです。

参考文献

Matching CUDA arch and CUDA gencode for various NVIDIA architectures https://arnon.dk/matching-sm-architectures-arch-and-gencode-for-various-nvidia-cards/
NVIDIA GeForce https://ja.wikipedia.org/wiki/NVIDIA_GeForce
NVIDIA/TransformerEngine https://github.com/NVIDIA/TransformerEngine
Transformer Engine　documentation https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html
Hopper GPUアーキテクチャ　https://www.nvidia.com/ja-jp/data-center/technologies/hopper-architecture/
NVIDIA DGX GH200　https://www.nvidia.com/ja-jp/data-center/dgx-gh200/
NVLink と NVSwitch https://www.nvidia.com/ja-jp/data-center/nvlink/
NVIDIA Grace Hopper Superchip が世界の研究センターやシステムメーカー、クラウドプロバイダーにわたる 40 以上の AI スーパーコンピューターを強化　https://prtimes.jp/main/html/rd/p/000000420.000012662.html　2023年
NVIDIA、時価総額一時2兆ドル超え　米企業で3社目　https://www.nikkei.com/article/DGXZQOGN234080T20C24A2000000/ 2024年
NVIDIA株が暴落する日がAI革命の本当の始まり　https://note.com/ai300lab/n/n9f3c30d4b270 2024年
AI半導体はAI時代の総合格闘技: NVIDIAの三位一体の強み　https://note.com/ai300lab/n/n1ebafffd0903 2024年