イーロン・マスクの世界最大のAIトレーニングクラスター「コロッサス」概要
イーロン・マスク氏の設立したx.aiは、テネシー州メンフィスにおいて、AIトレーニング用スーパーコンピュータ「コロッサス」の稼働を開始しました。このスーパーコンピュータは、わずか122日という短期間で立ち上げられ、100,000台を超えるNVIDIA H100 GPUを搭載しています。冷却には液冷システムを採用し、電力供給にはテスラのメガパックバッテリーを利用しています。この結果、コロッサスはAIトレーニング専用のGPUシステムとして世界最大級のスーパーコンピュータとなり、今後さらにGPU数を20万台以上に拡張する計画もあります。この「コロッサス」により、x.aiは業界における存在感を急速に高め、OpenAIやマイクロソフトもその計算力に警戒感を示しています。
本コンテンツは、このx.aiのスーパーコンピュータ「コロッサス」のシステム概要について解説するものです。ご参考下さい。
イーロン・マスクと彼のx.aiスタートアップが、世界最大かつ最強のAIトレーニング用スーパーコンピュータを開発しました。この驚異的なシステムには「コロッサス」(Colossus)という名が与えられています。最新のNVIDIA GPUハードウェアを搭載し、大量の水で液体冷却され、テスラの巨大なメガパックバッテリーで駆動されています。イーロンは、この組み合わせが世界最強のAIを生み出し、宇宙の謎を解明する力をもつと信じており、これが始まりにすぎないと考えています。
コロッサスはテネシー州メンフィスのミシシッピ川沿い、中心部南西の工業団地に位置しています。この建物はx.aiが建設したものではなく、もともとはスウェーデンの家電メーカー、エレクトロラックスの施設でした。イーロンがメンフィスを選んだ理由は、オースティンよりも適した建物と立地を見つけ、最速でこのプロジェクトを始動させるためです。外観は控えめに見えますが、真価は内部にあります。
現在10万台以上のNVIDIA HGX H100 GPUが接続された世界最大のAIトレーニングクラスターで、エクサバイト単位のデータストレージと超高速ネットワークで結ばれています。NVIDIAのCEO、ジェンセン・フアン氏も、コロッサスを「間違いなく地球上で最速のスーパーコンピュータ」と評しています。このスーパーコンピュータは、イーロン・マスクとx.aiがチャットボットを超える高度なAIモデル「Grok」を進化させ、人工超知能を育むための基盤として構築されました。
この施設はわずか122日で建設されました。通常、スーパーコンピュータのクラスターはコロッサスの半分、もしくは4分の1のGPUしか搭載せず、建設に数年かかるのが一般的です。トレーニングは「データホール」と呼ばれるエリアで行われており、x.aiはシステムを3層構造に分けたフロアを採用しています。上部に電源、下部に冷却システム、中央にGPUクラスターが配置されています。コロッサスにはこのデータホールが4つあり、それぞれに25,000台のGPU、ストレージ、そして光ファイバーネットワークが備わり、システム全体を結んでいます。
コロッサスの液体冷却には水が使用されており、GPUクラスターの下には巨大なパイプ網が配置され、大量の水が施設内外を循環しています。サーバーからの温水は屋外のチラーへ送られ、冷却された水が再び戻ってくる仕組みです。水温はGPU温度よりも低く保たれるため、GPUからの熱が水に移行し、システムから効率的に熱が除去されます。
各GPUトレイには、現在AIトレーニング用として最先端のNVIDIA H100 GPUが8基搭載されています。イーロンは、将来的にNVIDIA B200チップへのアップグレードも予定していますが、現時点でコロッサスには無駄にできる時間がありません。
各ラックは1つのキャビネットに収められ、垂直スタック内には合計64台のGPUと16台のCPUが配置されています。ラックごとに独立した水冷システムが組み込まれ、冷水用の青いチューブと温水排出用の赤いチューブが使用されています。
このGPUラックはSupermicroによってx.aiのために特別に設計されており、トレイ単位でラックを引き出してメンテナンスが可能です。この設計により、キャビネット全体を分解せずに迅速なメンテナンスが行えるため、ダウンタイムが最小限に抑えられます。同様に、水冷システムも各キャビネットに独自の冷却管理ユニットが設置されており、流量や温度を監視し、個別の水ポンプが簡単にメンテナンスできる構造になっています。
巨大なシステムである以上、故障は避けられません。しかし、重要なのは、故障を局所化し、迅速に問題を解決してクラスター全体の生産性を高めることです。各キャビネットの背面には「リアドア・ヒートエクスチェンジャー」と呼ばれる大型のファンが設置され、ラック全体を通して空気を引き込み、チップから冷却水へと熱を移動させます。これにより従来の空調装置を置き換え、各ラックが自給自足できる仕組みになっています。ファンは技術者が識別しやすいよう色分けされており、正常なファンは青、交換が必要なものは赤で示されています。
GPUがAIトレーニングを担当する一方で、CPUはデータ準備やオペレーティングシステムの運用に使われ、8基のGPUに対して2基のCPUが搭載されています。Grokのトレーニングに使用されるデータは、テキスト、画像、動画といったエクサバイト規模のデータが保管された巨大なハードドライブストレージシステムに蓄積されています。
1エクサバイトは10億ギガバイトに相当し、この膨大なデータは超高速ネットワークシステムによって管理されています。コロッサスのデータはイーサネットを通じて転送されますが、家庭用ネットワークとは異なり、x.aiネットワークはNVIDIA BlueField 3 DPUを用い、光ファイバーケーブルで400Gbpsの速度を実現しています。これは家庭用高速インターネットの約400倍の速さで、イーサネット技術によって通常のスーパーコンピュータを超える規模の拡張が可能となり、データセンター内のすべてのサーバーの膨大なストレージ需要に応えています。
また、コロッサスは膨大な電力を必要とし、x.aiはテスラエナジーと提携して革新的な電力供給システムを構築しました。通常の電源からも供給を受けていますが、当初はグリッドからのミリ秒単位の電力変動がトレーニングに影響を及ぼしていました。x.aiはテスラのメガパック電池ユニットでこの問題を解決しました。グリッドからの電力はメガパックに取り込まれ、そこから直接トレーニングクラスターに供給されるため、トレーニングに必要な安定した電力が確保されます。この独自のシステムは、x.aiがコロッサスのGPU数を20万台以上に倍増させる際にさらに重要になります。
イーロンは、この倍増を2か月以内に達成すると述べており、その急成長はAI業界の大手を警戒させています。OpenAIのCEOであるサム・アルトマン氏も、マイクロソフト幹部に対し、イーロンがまもなくコンピューティングパワーで追い抜くのではないかと懸念を表明したと報じられています。
このシステムは莫大な費用がかかります。数ヶ月前、x.aiはベンチャーキャピタルから60億ドルを調達し、設立からわずか1年で企業評価額は240億ドルに達しました。最近では、イーロンがさらに資金を集め、x.aiの評価額を400億ドルに引き上げようとしているとの報道もあります。参考までに、OpenAIの評価額は1570億ドルに達しており、人気のAI検索ツールを提供するPerplexity AIのような小規模な企業も80億ドルに達すると予想されています。
Grokについても、コロッサスの新たな計算能力によって急速に進化しています。最近、Grokは視覚機能を備え、テキスト入力に加え、画像を分析・解釈できるようになりました。この機能はXのソーシャルメディアプラットフォームにプレミアムユーザー向けに組み込まれ、投稿内の画像をクリックしてGrokに質問できるようになっています。これは、あらゆる知的作業を人間と同等に行える人工汎用知能(AGI)への道を進むx.aiにとって重要なステップです。AGIは理論的には人類の全知識をひとつのスーパーコンピュータに備え、さらに学習と発見を重ね、これまで解決不能とされてきた問題を解決できる存在です。イーロン・マスクによると、このレベルのAGIは宇宙の謎や人類の本質を解き明かす可能性がある一方で、暴走すれば人類を滅ぼす可能性もあります。
2. オリジナル・コンテンツ
オリジナル・コンテンツは、以下リンクからご視聴になれます。
尚、本投稿の内容は、参考訳です。また、意訳や省略、情報を補足したコンテンツを含んでいます。
The Tesla Spaceより
(Original Published date : 2024/11/04 EST)
<参考コンテンツ>
<御礼>
最後までお読み頂きまして誠に有難うございます。
役に立ちましたら、スキ、フォロー頂けると大変喜び、モチベーションにもつながりますので、是非よろしくお願いいたします。
だうじょん
<免責事項>
本執筆内容は、執筆者個人の備忘録を情報提供のみを目的として公開するものであり、いかなる金融商品や個別株への投資勧誘や投資手法を推奨するものではありません。また、本執筆によって提供される情報は、個々の読者の方々にとって適切であるとは限らず、またその真実性、完全性、正確性、いかなる特定の目的への適時性について保証されるものではありません。 投資を行う際は、株式への投資は大きなリスクを伴うものであることをご認識の上、読者の皆様ご自身の判断と責任で投資なされるようお願い申し上げます。