A100やH100より大幅に性能が向上したNVIDIAの次世代チップ「ブラックウェル」開発中

2024年8月29日 09:54

本日NVIDIAは、NVIDIA史上最高益をたたき出しましたが、ブルームバーグではCEOのジェンスン・フアン氏が次世代チップ「ブラックウェル」の開発について独占インタヴューをした記事「Nvidia CEO Jensen Huang Speaks in Exclusive Interview」を出しました。

Blackwellチップとは

エヌビディアのCEOジェンスン・フアンは、次期ブラックウェルチップアーキテクチャは、従来のものよりも大幅にエネルギー効率が高くなるように設計されていると発表しました。
エヌビディアの最近の年次株主総会で、フアン氏は、特に大規模なAIモデルやリアルタイム生成AIアプリケーションの実行において、ブラックウェルは運用コストとエネルギー消費を以前のモデルと比較して最大25倍削減することを強調しました。

AIだけでなく様々な業界に対応できるチップ

ファン氏は、ブラックウェルはパフォーマンスを向上させるだけでなく、ロボット工学やAIを含むさまざまな業界で高まる高速コンピューティングの需要にも対応できると強調しました。

同氏は、このアーキテクチャには、データ処理とAI機能の新たなブレークスルーを解き放つことを目的とした6つの革新的な技術が組み込まれていると述べました。ブラックウェルプラットフォームは、特にAI技術の需要が高まり続ける中で、エネルギー効率の高いコンピューティングソリューションに対するニーズの高まりをサポートすることが期待されています。

A100やH100よりも大幅に性能が向上

NVIDIA Blackwell プラットフォームには、以前の世代と比較してエネルギー効率の向上に貢献するいくつかの重要なテクノロジが組み込まれています。

高度な製造プロセス: Blackwell GPUは、カスタムビルドの4NP TSMCプロセスを使用して製造されており、チップに2,080億個のトランジスタを詰め込むことができます。この高度なプロセスは、電力効率の向上に貢献すると考えられます。
第2世代のTransformer Engine: このテクノロジーには、新しいマイクロテンソルスケーリングのサポートと高度なダイナミックレンジ管理アルゴリズムが含まれています。4ビット浮動小数点AI推論機能をサポートし、効率性を維持しながら計算とモデルのサイズを2倍にすることができます。
第 5 世代 NVLink: NVIDIA NVLink の最新バージョンは、GPU あたり 1.8TB/秒の双方向スループットを実現し、複雑な AI モデルで GPU 間の通信をより効率的に行うことができます。
RASエンジン：Blackwellには、信頼性、可用性、保守性のための専用エンジンが含まれています。AIベースの予防保守を使用して診断を実行し、信頼性の問題を予測することで、システムの稼働時間を最適化し、運用コストを削減できます。
解凍エンジン: 専用の解凍エンジンが最新のフォーマットをサポートし、データベースクエリを高速化してデータ分析とデータサイエンスのパフォーマンスを向上します。
アーキテクチャの改善: 明確には述べられていないが、Blackwell の全体的なアーキテクチャは、よりエネルギー効率が高くなるように設計されています。ファン氏は、2,000 個の Blackwell GPU を使用して大規模な AI モデルをトレーニングすると、90 日間で 4 メガワットの電力を消費するが、8,000 個の旧式 GPU では同じ期間に 15 メガワットしか消費しないと述べました。

これらの改善により、BlackwellはAmpereやHopperを採用したGPUと比較して、AIワークロードの処理能力、エネルギー効率、セキュリティ、そしてデータ処理能力において大幅な進歩を遂げています。特に生成AIや大規模言語モデルの処理において、Blackwellは前世代を大きく上回る性能を発揮します。

GPUとCPUの両方を活用するBlackwell アーキテクチャ

Blackwell アーキテクチャには、GPU と CPU の両方の進歩を活用してエネルギー効率の向上に貢献するいくつかの重要なテクノロジが組み込まれています。

高度なGPUアーキテクチャ：Blackwell GPUは、カスタム4NP TSMCプロセスを使用して製造された2,080億個のトランジスタを搭載しています。
これにより、以前の世代と比較してエネルギー効率が向上し、計算能力が向上します。
第2世代のトランスフォーマーエンジン:このGPUテクノロジーには、新しいマイクロテンソルスケーリングのサポートと高度なダイナミックレンジ管理アルゴリズムが含まれています。4ビット浮動小数点AI推論をサポートし、効率性を維持しながら計算とモデルのサイズを2倍にすることができます。
。
CPU統合: GB200「スーパーチップ」は、2つのBlackwell GPUとNVIDIAのGrace CPUを組み合わせたものです。
GPU と CPU の緊密な統合により、データの移動と処理がより効率的になり、全体的なエネルギー消費が削減されます。
第 5 世代 NVLink:最新の NVLink は、GPU あたり 1.8TB/秒の双方向スループットを提供し、複雑な AI モデルで GPU 間のより効率的な通信を可能にします。
これにより、データ転送時のエネルギーの無駄が削減されます。
最適化された電力管理: Blackwell では明確に説明されていないが、NVIDIA GPU には通常、ワークロードに基づいて電力状態を調整し、アイドル期間中のエネルギー使用量を最小限に抑える高度な電力管理技術が組み込まれています。
ワット当たりのパフォーマンスの向上: Jensen Huang 氏は、2,000 個の Blackwell GPU を使用して大規模な AI モデルをトレーニングすると、90 日間で 4 メガワットの電力を消費するのに対し、8,000 個の旧型 GPU では同じ期間に 15 メガワットしか消費しないことを強調しました。
この大幅な消費電力の削減は、 GPU と CPU の両方の進歩による効率性の向上を実証しています。

パフォーマンスとエネルギー効率を最適化

Blackwell B100 には、パフォーマンスとエネルギー効率を最適化するためのいくつかの熱管理機能が組み込まれています。

高度な冷却システム: B100は次世代の冷却システムを採用し、熱管理を改善します。具体的な詳細は提供されていないが、これには強化されたヒートシンク設計とより効率的な放熱方法が含まれる可能性があります。
電力効率: B100は、以前のモデルよりもエネルギー効率が高くなるように設計されており、全体的な発熱を減らすことで熱管理に役立ちます。
適応型電力管理: GPUには、ワークロード要件に基づいて動的に調整できるAIベースの電力管理システムが組み込まれており、電力消費と発熱を最適化するのに役立ちます。
熱設計電力 (TDP): B100 の TDP は 700W で、他の Blackwell バリアントよりも低くなっています。この低電力エンベロープにより、熱制約を維持しながら既存の HGX H100 システム設計に適合できます。
空冷互換性: B100は空冷設計のため、既存のデータセンター冷却インフラストラクチャと互換性があります。
アンダークロック: 700W エンベロープ内で熱安定性を維持するために、B100 は、より高出力の Blackwell バリアントに比べて低いクロック速度で動作します。
動作温度範囲: B100に限ったことではありませんが、BlackwellファミリーのGPUは5～30°C (41～86°F)の温度範囲で動作するように設計されており、堅牢な熱管理機能を備えています。

これらの機能により、B100 は熱安定性を維持しながら高いパフォーマンスを実現し、大規模な冷却システムのアップグレードを必要とせずにさまざまなデータセンター環境に導入できます。