見出し画像

ジェンセン・フアン、短期間でのxAIの成果を称賛

2,417 文字

新しい参入者の中でも、お金もあり頭脳もあり野心もある企業がxAIですわな。そうです。で、あなたとラリーとイーロンが会食されて、H100を10万台買うように説得されたっていう噂があって、メンフィスに行って数ヶ月で大規模なコヒーレント・スーパークラスターを構築したとか。
まあ、最初に言うておきますけど、3点だけでは傾向は見えまへんで。はい、確かに彼らと食事はしましたけど。因果関係でいうと、そのスーパークラスターの構築能力についてどない思うか、それに加えてH100をさらに10万台追加したいという噂もありますやん。
まずはxAIの野心と彼らの達成したことについて話しましょか。それと、もう20万台、30万台規模のGPUクラスターの時代に入ってるんかってことですけど、答えはイエスですな。
まず第一に、功績は正当に評価せなあきません。構想からデータセンターの準備、NVIDIAの装置を設置して、電源入れて接続して、最初のトレーニングを実行するまでの期間ですけど。巨大な工場を建てて、液冷システムを導入して、電力供給も許可も取って、そんな短期間で完成させたことは、まさに超人的な成果ですわ。
私の知る限り、それができる人は世界で一人だけです。イーロンは工学と建設、大規模システム、そして資源の動員において特別な存在なんです。信じられへんくらいですわ。
もちろん、彼のエンジニアリングチームも素晴らしい。ソフトウェアチーム、ネットワークチーム、インフラチーム、みんな優秀です。イーロンはこれを深く理解してはって、我々が開始を決めた瞬間から、エンジニアリングチーム、ネットワークチーム、インフラストラクチャー・コンピューティングチーム、ソフトウェアチームと一緒に計画を立てて、事前準備して、全てのインフラと物流、その日に届いた膨大な技術と機器、NVIDIAのインフラとコンピューティングインフラ、全ての技術を使って、トレーニングまで19日間でやり遂げたんです。
誰も寝てへんかったんちゃいますか?もちろんです。でも、まず19日というのは信じられへん速さですけど、ちょっと立ち止まって考えてみましょ。19日ってたった2週間ちょっとですよ。
そこにある技術の山を見たら驚きますわ。全ての配線とネットワーク。NVIDIAの機器のネットワークは、ハイパースケールデータセンターとは全然違います。1ノードに入る配線の数、コンピューターの背面は全部配線だらけ。この膨大な技術を統合して、全てのソフトウェアを動かすのは本当にすごいことです。
イーロンとxAIチームの成果は、私も彼らと一緒にやったエンジニアリング作業や計画作業を評価してくれてることに感謝してます。でも、彼らが達成したことは前例のないもので、一つのクラスターとして10万台のGPUは、間違いなく地球上で最速のスーパーコンピューターですわ。
普通のスーパーコンピューターなら、計画に3年かかって、機器の納入後も動作確認に1年かかるんです。それが19日ですよ。これはNVIDIAのプラットフォームの成果で、全てのプロセスが堅牢化されているからできたことです。
もちろん、xAIのアルゴリズムやフレームワーク、スタックなどもあって、統合すべきことは山ほどありましたけど、その計画は非常に綿密でした。イーロンは唯一無二の存在ですわ。
でも、最初の質問に戻りますと、20万から30万台規模のGPUクラスターの時代はもう来てます。じゃあ50万台には拡張できるんか、100万台はどうなんか、そしてNVIDIAの製品需要は100万台規模への拡張に依存してるんかっていう最後の部分については、答えはノーです。
私の感覚では、分散トレーニングが機能せなあかんし、分散コンピューティングも発明されるでしょう。フェデレーテッドラーニングや非同期分散コンピューティングの形態が見つかると、私は非常に楽観的に考えてます。
大事なのは、スケーリング則が以前は事前トレーニングに関するものやったんですが、今はマルチモーダリティやら合成データ生成に移行してます。事後トレーニングも急激に拡大して、合成データ生成、報酬システム、強化学習ベースになってきて、推論のスケーリングも急上昇してます。
モデルが回答する前に、内部推論を1万回くらいやってるかもしれませんし、ツリー検索や強化学習、シミュレーション、リフレクション、データ検索なども行ってるでしょう。コンテキストもかなり大きいはずです。これが今の知能の形ですわ。
この能力のスケーリングを計算して、モデルサイズとコンピューティングサイズが年4倍で増加し、需要も使用量も増え続けると考えたら、100万台規模のGPUが必要になることは間違いありません。
問題は、データセンターの観点からどうアーキテクチャを設計するかです。一度に数ギガワット、250メガワット規模のデータセンターが必要になるんかどうか。私の感覚では両方出てくるでしょうね。
アナリストは現在のアーキテクチャにばかり注目しますが、この会話で一番重要なのは、私たちがエコシステム全体を見て、何年も先を考えているということです。NVIDIAがスケールアップやスケールアウトしているのは、将来のためであって、50万台や100万台のGPUクラスターだけに依存するわけやありません。
分散トレーニングの時代が来るまでに、それを可能にするソフトウェアを書いておくんです。7年前に開発したMegatronがなければ、これほど大規模なトレーニングは実現できなかったでしょう。MegatronやNICL、GPU Direct、DMAでの作業など、パイプラインの並列処理を容易にする技術があったからこそ可能になったんです。
モデルの並列化やトレーニングの分散、バッチ処理など、全てが初期の取り組みのおかげで実現して、今は次の世代のための初期作業を行っているところなんです。

いいなと思ったら応援しよう!