AI向けコンピューティングハードウェア - 過去、現在、そして未来

2025年1月30日 20:34

42,519 文字

今週のAIポッドキャストへようこそ。通常のように先週のAIニュースについて話すのではなく、今回は長らく約束していたハードウェアに関するエピソードです。ニュースとは関係なく詳細な内容に入っていきますが、この1年のハードウェア開発や、データセンターへの莫大な投資など、全般的なトレンドに関連する内容になります。
改めて自己紹介ですが、私はホストの一人、アンドレ・クラノフです。AIを学び、現在はスタートアップで働いています。
私はジェレミー・ハリスです。グラッドストーンAIという国家安全保障企業の共同創設者です。ハードウェアに関して私の視点を説明させていただくと、私たちの仕事は現在および将来のAIシステムから生じる大量破壊兵器レベルのリスクに焦点を当てています。輸出規制の観点からハードウェアを見ています。例えば、中国がこういった技術を手に入れるのを防ぐにはどうすればよいか、西側諸国の高度なセキュリティを持つデータセンターに対してどのような攻撃が可能か、モデルを抽出したり、トレーニング中のモデルの動作を戦略的に変更したり、施設を破壊したりするようなことについて研究しています。
最近は特殊部隊や情報機関の人々、さらにはデータセンター企業とも協力して、これらの施設のセキュリティ確保について取り組んでいます。もちろん、これまでの米国政府との仕事も継続しています。これが私のAIとコンピューティングに対する視点です。
私はAIとコンピューティングの分野でPh.D.を持っているわけではありませんが、セキュリティの観点から必要な知識は持っています。可能な限り、より深く掘り下げたい方のためのリソースや専門家をご紹介できればと思います。特に国家安全保障に関係のないコンピューティングの分野についてです。
私の方は、ソフトウェアとAIを学び、アルゴリズムのトレーニングを行ってきました。GPUを使用し、大まかな仕組みは理解していますが、実際の動作については比較的理解が浅いです。私もジェレミーから学ばせてもらうことになりそうです。
お互いに学び合える機会になりそうで楽しみですね。では始めましょう。今日の詳細に入る前に、AIとハードウェアの歴史について面白い点を簡単に振り返ってみたいと思います。
AIとハードウェアは基本的に最初から結びついていました。チューリングはコンピューティングの世界で非常に影響力のある人物でした。チューリングゲーム - 正確にはチューリングテストですが - は、AIやAGIがいつ実現するかを測るための彼の発明で、今日でも広く議論されています。汎用コンピュータが実際に存在する前から、人々はそれについて考えていたのです。
ちなみに、イミテーションゲームについて言えば、その歴史は驚くほど古いですね。私は『デューン』を読んだことはありませんが、ブトレリアン・ジハードについての言及があるのを知っています。バトラーは1860年代頃 - 正確な年代は自信がないのですが - 機械が我々の周りに増えていく様子を観察し、いつか機械が他の機械を作り始めたら、最終的に我々人間は必要なくなるのではないかと最初に指摘した人物です。当時はコンピュータに関してではありませんでしたが、このような考えを持っていた人々が非常に先見の明があったということは興味深いですね。
話を脱線させるつもりはありませんでしたが、制御の喪失に対する懸念は2000年代初頭よりもずっと前からあったということを指摘したかったのです。
ところで、あなたが指摘してくれたように、正式にはイミテーションゲームと呼ばれ、チューリングゲームという呼び方は一般的ではありません。チューリングテストとして知られているものが、元々イミテーションゲームとして発表されたものです。
概念的には、AIやロボット工学などは長い間人々の心の中にありましたが、50年代に入り、真空管を使用した実際のコンピューティングが始まった時期 - まだ半導体の時代ではありませんでしたが - にAIという分野が始まりました。
最も初期のAIと考えられる取り組みの一つは、チェッカーをプレイする小さなプログラムでした。1951年には既にそのようなプログラムが書かれていました。その10年の間には、最初のAIプログラムを示すいくつかの例がありました。
マービン・ミンスキーが開発した確率的ニューラルアナログ強化計算機というものがありました。これについては実はこの番組の準備で初めて知ったのですが、非常に興味深いものでした。これはハードウェアで構築された小さなニューラルネットで、迷路の中のネズミの学習をシミュレートし、強化学習をシミュレートしたものでした。
当時は人間の学習や脳の学習についての理論も出てきていました。その文脈で言うと、この機械には約400個のネオン管があり、各ネオンには6つの真空管とモーターがついていました。機械全体はグランドピアノほどの大きさで、300個の真空管を使用していました。これは、この用途のために特別に作られたコンピュータの初期の例の一つです。
それは一つの重要な点ですね。コンピューティングの歴史において、長い間すべてがカスタムメイドだったという事実は、今日では見落としがちです。スケーラブルなコンピューティングモジュールを構築するという考え方、これらすべてを統合する方法は、実際にはインテルが参入するまでありませんでした。
私の記憶が正しければ、インテルを成功に導いたのは、特定のアプリケーションに最適化されていないものを作るという発想でした。特定のアプリケーションには最適ではないかもしれないが、スケールすることができる - それが大きな違いでした。それ以前は、あなたが言ったように、とにかく特別な機械を作るというアプローチでした。
その意味では、コンピュータサイエンスというよりも物理学に近かったと言えますね。
そうですね。人々が集まって小さな機械を作り、AIについての理論を実証するというような感じでした。面白い例をもう一つ見つけました。有名なIBM 701と702についてです。IBMはちょうどこの巨大なメインフレームの構築を始めていて、これはしばらくの間、特にビジネスにおいて主要なコンピューティングのパラダイムとなりました。
IBM 701は最初の商用科学計算機で、アーサー・サミュエルがチェッカープログラムを書きました。これは間違いなく最初の学習プログラムの一つでした。非常にプリミティブな機械学習が組み込まれていて、記憶化という考え方と経験からの学習という二つのアイデアを持っていました。
そして有名なパーセプトロンが1958年から1959年に登場します。これは私の考えでは、ニューラルネットのアイデアの最初の本格的なデモンストレーションでした。フランク・ローゼンブラットによって再び特別に構築された機械で、オンラインで写真を見ることができますが、形を区別することを学習できる小さなニューラルネットを構築した、クレイジーな配線の塊のように見えます。
当時、ローゼンブラットと他の研究者たちはこれに非常に興奮していました。もちろん、10年後には興奮は一時的に収まりましたが、80年代には特別なハードウェアに関する興味深い歴史があります。詳しくは触れませんが、エキスパートシステム用のカスタムハードウェアが販売され購入されていた時期がありました。
Lispマシンと呼ばれるものもありました。Lispはかなり長い間AIにおいて主要な言語で、AI プログラムを書くために開発されました。そして70年代から80年代にかけて、論理的AIや探索、シンボリックAIの研究を行っていた科学者や研究者たちによって使用されていたLispマシンと呼ばれる特別なマシンがありました。
80年代、90年代の歴史的な概要を続けると、Lispマシンやエキスパートハードウェアシステムは消えていきました。ここで、あなたが言ったように、インテルやアップルなどのプレイヤーが、巨大なメインフレームである必要のない、より簡単に購入して配布できるハードウェアを作る本格的な汎用コンピューティングの始まりとなりました。
90年代後半のディープブルーとなるものを除けば、ハードウェアの詳細に関する例は少なくなります。IBMはチェスをプレイするための巨大なコンピュータに取り組んでいました。多くの人が知らないかもしれませんが、ディープブルーはただのプログラムではなく、ハードウェアへの巨大な投資でした。
信じられないほど長い探索ができるようにするためです。私の知る限り、それは本当に学習アルゴリズムではありませんでした。基本的には、ハードコードされた評価スキームを使用して、チェスに対してある種の既知の探索とヒューリスティックアプローチを行っていました。実際にチェスで勝つための方法は、チェスをプレイするための特別なハードウェアを構築することでした。それが、今日のような機械学習なしでデモンストレーションを実現した方法でした。
歴史的な振り返りを終えましょう。もちろん、この間ずっとコンピューティングはより強力になっていきました。80年代や90年代にはニューラルネットの研究が復活しましたが、その時点では人々はまだCPUを使用し、今日の一般的なパラダイムである並列コンピューティングなしでニューラルネットのトレーニングを試みていました。
並列コンピューティングはGPU（グラフィックス処理ユニット）とともに登場しました。これはグラフィックスを処理するために必要でした。90年代後半から2000年代にかけて、NVIDIAはゲーミング市場向けにこれらのグラフィックス処理ユニットを構築することで成長しました。
2010年代以前の2000年代を通じて、いくつかのグループがこれらのGPUを科学的なアプリケーションに使用できることを発見しました。例えば、一般的な線形代数プログラムを解くことができました。これはニューラルネットに使用するというアイデアの前でしたが、2009年頃までには、アンドリュー・ンによる研究があり、NVIDIAのGPUをどんなアプリケーションにも使用できるようにするCUDAが登場しました。
そして2012年には有名なAlexNetの論文が発表されました。これは最初の深層ニューラルネットの一つで、ImageNetベンチマークで当時使用されていた他のアルゴリズムを圧倒しました。その成功の主な革新の一つは、GPUを使用してこの大きなネットワークをトレーニングしたことでした。おそらく他の方法では不可能だったでしょう。
彼らは2つのNVIDIA GPUを使用し、それを実現するために多くのカスタムプログラミングを行わなければなりませんでした。それは学生たちの主要な貢献の一つでした。これがNVIDIAがAI向けGPUの方向性をより深く追求し始めた時期だと思います。彼らは既にその方向に進んでおり、CUDAとCUDNNを書き、様々な理由でハードウェアを専門化し始めていました。
KeplerアーキテクチャやPascalなど、AIにより適したアーキテクチャの開発を始めました。歴史的な背景として、人々は気づいていないかもしれませんが、GPTやChatGPTよりもずっと前の2010年代初頭の深層学習のデモンストレーションが、すでにGPUへの投資とデータセンターの構築の傾向を加速させていたのです。
2010年代半ばまでには、多くのことに深層学習が必要になることは明らかでした。翻訳などの分野で、GoogleはすでにDeepMindを買収し、Google Brainを拡大し、もちろんTPUに投資していました。2010年代半ばには、私の知る限り、最初のカスタマイズされたAIハードウェア、カスタムAIチップを開発しました。
2010年代を通じて、AIはすでに台頭していました。誰もが「より大きいほうが良い」という考えを持っていました。より大きなニューラルネット、より大きなデータセット、そのすべてを求めていましたが、OpenAIはそれを11まで引き上げるべきだと気づきました。1,000万や1億のパラメータモデルを持つのではなく、10億パラメータのモデルを持つべきだと。
彼らには多くのイノベーションがありましたが、彼らのブレイクスルーは、誰も以前にしなかった方法でスケーリングを受け入れたことでした。そうですね、そこで注目すべきもう一つの点は、より多くのデータがよい、より大きなモデルがよいという大まかな直感です。ジェフ・ヒントンやアンドリュー・ンのような先駆者たちがそれについて語っているのを聞くことができます。
しかし、実際にカプラン論文、有名な「ニューラル言語モデルのスケーリング法則」の論文が出てきたとき、GPT-3とGPT-2、そしてGPT-1もそうですが、GPT-3の変曲点から本当に出てきたのは、実際のスケーリング法則です。初めて、モデルがどれだけ良くなるかを自信を持って予測できるようになりました。
これによって設備投資の経済性が大きく変わりました。突然、CTOやCEOに「このスケーリング法則の直線を見てください」と言って、巨大な計算クラスタを構築するために1億ドルが必要だと説明することがずっと簡単になったのです。スケーリングに関連するリスクが減少したことで、経済性が変わったのです。
そうですね。振り返ってみると、OpenAIの物語はほとんど「スケールするものを探す」という探求として見ることができます。最初の2年間、彼らは強化学習に焦点を当てていました。彼らの主要なPRストーリーや論文の一つは、ビデオゲームDotaでの強化学習に関するものでした。
当時でさえ、彼らは多くの計算能力を使用し、プログラムのトレーニングに多くのお金を使っていましたが、それは強化学習が非常に難しく、世界を十分にシミュレートすることができないため、スケールしない方法でした。
彼らはロボット工学にも多く投資し、全体的なアプローチを持ち、多くのロボットシミュレーションを行っていました。しかし、やはり物事をシミュレートするのは難しく、スケールしませんでした。進化的アルゴリズムも一つの方向性でしたね。2015年から2018年にかけて、彼らは多くのことを試みました。
そして2017年にTransformerの論文が発表され、2018年頃に自然言語処理のための事前学習という考え方が出てきました。AlexNetの後、かなり早い2014年頃には、深層畳み込みニューラルネットを分類タスクでトレーニングすると、そのembeddingを一般的な方法で使用できることが分かっていました。
そこでの知見は、あらゆる種類のビジョンアプリケーションに再利用可能でした。既にトレーニングした重みから学習を始めることができ、タスクのために最初からやり直したり、多くのデータを必要としたりする必要がありませんでした。
自然言語処理では2017年から2018年頃まで、それは起こりませんでした。その時期に、言語モデリングが自然言語処理のための重みの事前学習の非常に有望な方法として、いくつかの取り組みによって発見されました。BERTはその時期の有名な例の一つです。
最初のGPTはそのような文脈で開発されました。言語モデリングのタスクでTransformerの事前学習に初めて大きく投資した例の一つでした。そしてOpenAIは - 正確な詳細は分かりませんが - おそらく内部で議論を重ね、このタスクのためにはインターネットをスクレイピングするだけで必要なデータがすべて得られるということに気づいたのでしょう。
そうなると、唯一の問題は「Transformerをどれだけ大きくできるか」ということになります。Transformerは、RNNとは異なりGPUで並列化できるため、スケールアップに適したアーキテクチャでした。それは言わば必要不可欠でした。
そして2019年にGPT-2が登場し、それは約20億 - 正確には17億パラメータのモデルで、これまでに誰も訓練したことのない規模でした。当時でさえ興味深かったのは、ブログ上でユニコーンの島についての数段落を書くようなデモがあり、その時点でGPT-2の安全性への影響や誤情報についての議論が既にありました。
当時は普通でしたね。彼らはGPT-1をオープンソース化していましたし、実際にOpenAIという名前の通り、常にモデルをオープンソース化するという前例を作っていました。GPT-2は、彼らが当時「段階的リリース戦略」と呼んでいたものを初めて試みた例でした。
時間をかけてGPT-2のより大きなバージョンを段階的にリリースし、悪用されているかどうかを監視するというものでした。オープンソースモデルがインターネット上で悪用されているかどうかを判断できるというのは、私にはいつも信じがたいことでしたが、まあいいでしょう。そして最終的に、GPT-3は非公開となりました。
そうですね、その流れは見えていましたね。GPT-2に至る経緯について話すと、イーロン・マスク対OpenAIの訴訟で明らかになった電子メールを見ると、それは決して計画されていたことではありませんでした。2018年の会話や、なぜ営利化に向かったのかの詳細を見ると、彼らはハードウェアが極めて重要だという一般的な信念を持っていました。
Googleはすべてのハードウェアを持っていたので、GoogleがAGIに到達するだろうと考えていました。そのため、より多くのハードウェアを手に入れ、トレーニングにより多く投資するためにお金が必要だったのです。これが2018年の営利化の議論のきっかけとなり、最終的にサム・アルトマンがマイクロソフトから100億ドルを確保することになりました。これがいつ発表されたのか忘れましたが、おそらく2019年でしょうか。
最初の10億ドルの投資が2019年で、その後2021年に100億ドルだったと思います。はい、10億ドルの方が妥当に聞こえますね。私が思うに、OpenAIは最初に、今では巨大なデータセンターと途方もなく並列化されたトレーニングが必要だということを理解した組織の一つでした。
彼らは既にDOTAエージェントでその方向に進んでいて、非常に大きなクラスタでトレーニングを行っていました。当時でさえ、それは非常に困難でした。そして、GPT-3に到達し、1,750億パラメータのモデルになり、スケーリング法則が確立され、文脈内学習が実現しました。
その時点で、スケールすることができ、非常に強力な言語モデルを実現できることは明らかになっていました。文脈内学習というアイデアは衝撃的でしたが、それでもなお、誰もが十分に投資を確信していませんでした。
振り返ってみると興味深いのは、MetaやGoogleなどが巨大な言語モデルのトレーニングを行っていなかったことです。内部的にはGoogleがある程度行っていたと思いますが、商業化しようとはせず、前進しようともしていませんでした。
そして当然、2022年にはChatGPTがGPT-3.5とともに登場し、爆発的な成功を収めました。今では誰もが巨大なニューラルネット、巨大な言語モデルを気にかけ、誰もが巨大なデータセンターを欲し、それらを動かすために必要な電力を巡って争っています。イーロン・マスクは10万個のGPUを購入し、ハードウェアは明らかに物語の大きな部分となっています。
ところで、ハードウェアの物語は、ある意味では - 我々の生涯に超知能につながる可能性が非常に高い物理的インフラの物語を語っているのです。私は、世界で研究し理解すべきより重要な物理的なものはほとんどないと思います。
また幸運なことに、これは魅力的な物語です。単にエゴや億万長者たちがこれを追いかけているという話だけではありません。科学的なレベルで魅力的で、ビジネスレベルで魅力的で、スタックのあらゆる層が魅力的です。これが私がこのエピソードにとても興奮している理由の一つです。
あなたは現在の状況をうまく説明しましたね。スケーリング - コンピュートのスケーリング、データのスケーリング、モデルサイズのスケーリング - が比較的容易にできるということが重要だという感覚があります。
リッチ・サットンの「苦い教訓」の議論は、ニューラル言語モデルのスケーリング法則の論文の直前、2019年頃に出ました。基本的に彼は「すべてのAI研究者が新しい素晴らしいアーキテクチャを考え出し、それがAGIを実現する方法だと考えているが、残念ながら人間の賢さはわれわれが期待していたような要因ではない」と言っています。
それが「苦い」教訓なのです。その代わりに本当にすべきことは、モデルの邪魔をしないことです。ただモデルを自由にさせ、スケールさせることです。愚かなモデルを取り、膨大な計算能力でスケールさせれば、非常に印象的な結果が得られるでしょう。
彼は部分的に、言語モデリングの初期の成功や強化学習の成功を示唆していました。どのようなアーキテクチャがこれを実現するのかは明確ではありませんでしたが、まもなくTransformerがそれになることが分かりました。そしてそれを改良することもできます。
モデルやアーキテクチャを考える本当の方法は、それらが計算能力を注ぎ込む特別な漏斗のようなものだということです。上から注ぎ込み、知能の方向に形作るのです。それらは単なる漏斗で、それほど重要な部分ではありません。漏斗には様々な形があり、多くの異なる開口部の幅があり、それらすべてが多くの異なることを行うことができます。
もし漏斗が少し愚かであっても、来年か再来年に計算コストが50%削減されるのを待てば、同じ愚かなアーキテクチャでもうまく機能するようになるでしょう。つまり、たとえモデルのアーキテクチャレベルで非常に愚かであっても、ハードウェアが提供するものを活用できるアーキテクチャさえあれば、そこに到達できるという考え方です。
これは根本的なアイデアであり、AIの未来が深く不可分にコンピュートの未来と結びついているということを意味します。そしてコンピュートの未来について考え始めると、ムーアの法則についての質問が出てきます。
歴史的な文脈を簡単に説明すると、1975年にムーアは、これは物理法則ではなく、ビジネス界がどのように機能するかについての観察、少なくとも科学とビジネスの相互作用についての観察でした。
彼は当時、集積回路やチップに搭載できるトランジスタの数、つまりコンポーネントの数が毎年倍増しているように見えると述べました。これが彼の主張でした。今では、その数が毎年倍増するわけではないことが分かっています。実際、ムーアは1975年に時間枠を更新し、毎年ではなく2年ごとに倍増すると述べました。
18ヶ月にすべきかどうかについて多くの議論がありますが、細かい点は重要ではありません。重要なのは、チップに搭載できるコンピューティングコンポーネント、トランジスタの数が18ヶ月ごとに倍増するという、安定した信頼できる指数関数的な増加があるということです。
これは、より少ないコストでより多くのことができるということを意味します。同じチップでより多くの知的作業を行うことができますが、それが基本的なトレンドで、これから数年間はこれに乗っていくことになります。それは異なる形を取り、ムーアの法則は死んだという人々の話を聞くことになりますが、それは正しくありません。しかし、それが正しくない理由は興味深く、それがこのエピソードで話さなければならないことの一部となります。
今日、我々はムーアの法則を維持するためにどのような工夫をしているのか、そしてAIチップに特に興味がある世界で、ムーアの法則はどのように変化したのか。なぜなら、我々は今、歴史的に集積回路で見てきたムーアの法則とは異なる、AI特有のムーアの法則のトレンドを見ているからです。
そしてその点について実際に、これは一般的に使用されている用語ではありませんが、書かれてきたものがあり、NVIDIAも指摘していますが、現在「ホンの法則」という考え方があります。GPUのトレンドはムーアの法則とかなり一致していて、さらに速いペースで進んでいます。
2010年代初頭にAIへの使用が始まり、そしてAIの成長はGPUの性能向上とほぼ手を携えて進んできました。特に過去数年間、開発されるGPUの性能、コスト、サイズの爆発的な増加が見られます。H100に至っては、10年前と比べて1000倍以上の何か大きな数字になっています。たった10年でおそらく1000倍以上です。
そこで、半導体のナノスケールで達成できる密度であるムーアの法則の特性が物理的な限界により飽和する可能性があったとしても、並列コンピューティングにおけるアーキテクチャとチップの活用方法は、少なくとも今のところ減速していません。それが我々が今いる場所の大きな理由です。
その通りです。実際、それは玉ねぎの皮をもう一枚剥くような良い切り口になります。ムーアの法則の一般的な概念があり、アンドレが「ホンの法則もある」と言いましたが、18ヶ月ごとに2倍から、突然2ヶ月ごとに4倍になるようなことはどのように起こるのでしょうか？追跡している指標によって異なりますが。
ここで、チップが実際に何をしているのか、タスクを実行するチップの核となる機能は何なのかについて話す必要があります。今日特にAIに関連する2つの核心的な部分に焦点を当てたいと思います。
まず第一に、メモリがあります。作業しているデータを保存できる必要があります。第二に、ロジックがあります。保存しているビットとバイトに対して何かを実行する能力が必要です。理にかなっていますよね？この2つを組み合わせれば、完全な問題解決マシンができあがります。情報を保存する能力と、その情報に対して何かを行う能力、数学的な演算を実行する能力があります。
メモリの保存とロジック、数値演算ですね。これらを実際に分解してみると、特に今日では、ロジックを作るのと、メモリを作るのでは、非常に異なるプロセスと非常に異なるスキルセットが必要であることが分かります。
ロジックセルとメモリセルを作るアーキテクチャの違いなど、様々な理由がありますが、それについては後で必要に応じて触れることにします。今のところ重要なのは、ロジックとメモリは異なる理由で作るのが難しく、異なる速度で改善されるということです。
年月を経て、ロジックの改善、つまり単にFLOPS（浮動小数点演算/秒）を出力する能力を見ると、非常に急速な改善が見られます。その大きな理由の一つは、ロジックを構築するFabは、基本的に気にする必要のある一つのトップラインの指標に焦点を当てることができるということです。
それは一般的にトランジスタ密度です。つまり、これらの計算コンポーネント、トランジスタをチップにどれだけ詰め込めるかということです。これが主要な指標です。電力消費や熱放散などの他のことも気にしますが、それらは副次的な制約です。一つの明確な焦点領域があるのです。
一方、メモリを気にする場合、一つの主要な指標ではなく、基本的に3つの主要な事項を気にする必要があります。まず第一に、メモリがどれだけ保持できるか、メモリの容量です。第二に、メモリから何かを取り出すのにどれくらい時間がかかるか、これはレイテンシーと呼ばれます。
メモリのバケツがあり、そのメモリから何かのビットを取り出したいとき、それらが数学的な演算に使用できるようになるまでどれくらい待たなければならないか、それがレイテンシーです。つまり、バケツがどれだけ保持できるか（容量）、バケツから何かを取り出すのにどれくらい時間がかかるか（レイテンシー）、そして帯域幅、つまり一度にどれだけのものをそのメモリから取り出せるかという3つの要素があります。
メモリを最適化する場合、これら3つを同時に最適化する必要があり、一つの指標に排他的に焦点を当てることができません。それは焦点を分散させ、歴史的に何かを犠牲にする必要があり、その犠牲になるのは通常レイテンシーです。
年月を経て、メモリの改善を見ると、レイテンシーはあまり改善されていません。容量と帯域幅は大きく改善され、はるかに速く改善されています。つまり、解決しようとしている問題に応じて、非常に高い容量、非常に高い帯域幅、非常に低いレイテンシー（これはAIでよく求められます）、またはそれらの他の組み合わせを最適化したいかもしれません。
これにより、チップ設計の要素が少し形作られ始めています。これらのバランスをどのように取るかを考え始めています。そして歴史的に、これから生じた課題の一つは、先ほど言ったように、レイテンシーが低いということです。
人々がメモリに関して容量と帯域幅、つまり一度にどれだけ取り出せるか、バケツの大きさはどれくらいかに焦点を当ててきたため、レイテンシーは悪くなりがちでした。レイテンシーは非常にゆっくりと改善されてきたため。
一つの結果として、ロジック能力は非常に速く改善されてきました。チップにたくさんのトランジスタを詰め込むことができます。何が起こったかというと、チップ上のロジック能力、つまり数値を処理できる速さと、新しい計算のための新しいデータを取り込める速さとの間に、ますます大きな差が生じました。
チップのロジック部分が、すべての数値を処理し終えて、次の問題を解くためのメモリが取り込まれるのを待って、ただ指をもじもじさせているような状況を想像できるでしょう。
その差、そのギャップは基本的にダウンタイムであり、ますます大きな問題となってきています。なぜなら、トランジスタ密度、ロジックはAIにおいて驚くべき速さで改善されていますが、レイテンシーはそれほど速く改善されていないからです。
つまり、数値を処理する能力は非常に高いのに、メモリ入力の次のラウンドの間に比較的長い遅延があるのです。これは「メモリウォール」として知られているものの大きな部分です。少なくともAIハードウェアにおける構造的な大きな問題です。
これを克服するためには様々なテクニックがあります。例えば、前のバッチの数値を処理している間に次のメモリを取り込むようにメモリ入力を段階的にずらし、可能な限り重複させるなどの方法があります。
しかし、これが基本的な状況です。ロジックとメモリがあり、ロジックは非常に速く改善されていますが、メモリは焦点が分散されているため、それほど速く改善されていません。しかし、高性能なAIチップには両方が必要で、基本的に残りの物語はこれらの主要な要素を念頭に置いて展開されます。
次のステップに進む良い切り口になったのではないでしょうか。そうですね、メモリについて少し付け加えることができます。年月を追ってRAMの容量は非常に速く成長してきましたが、ムーアの法則ほど速くはありませんでした。
メモリの細かい点の一つは、それもまた複雑だということです。まあ、CPUも今では複雑になっていて並列化していますが、メモリも同様に複雑です。様々な理由で、メモリを単に速くするだけでなく、よりスマートなメモリを持つことができます。
キャッシングを導入し、このデータは頻繁に使用するものなので、より小さくより高速なメモリを持ち、重要な情報をキャッシュして、より速くアクセスできるようにします。つまり、異なる速度、異なるサイズを持つメモリの層があるのです。
そして今、GPUは途方もない量のメモリを必要とします。CPUでは、RAMはランダムアクセスメモリで、これは使用できる高速メモリで、通常8ギガバイト、16ギガバイトです。あなたのOSは、ストレージやハードドライブからRAMにものを取得し、それから計算を行うことを担当しています。
ニューラルネットの計算を行う場合、RAMにないものは何も保存したくないし、可能な限り多くのものをキャッシュに入れたいのです。正確な詳細は知りませんが、GPUへの多くのエンジニアリングがそのようなキャッシング戦略に関するものであることは知っています。
Transformerの多くの再最適化はキーバリューキャッシングに関するものであり、CPUやラップトップでは通常8、16、32ギガバイト程度しかないRAMの側面で、GPUでは途方もない数字が見られます。
その通りです。実際、あなたが導入した要素は、データセンターのフロアで何が起こっているのか、データセンターのフロアがどのように見えるのかという会話の次のステップに移る助けになります。
コンピューティングについて考えるとき、心に浮かべるべきイメージは階層です。ますます複雑になり、ベアシリコンに近づく操作の連続です。このように考えてください。データセンターに入ると、本当に巨大な量の非常に高い電圧があります。電力線が入ってきています。
チップ自体では、ほぼ電子レベルで、非常に小さな電圧、非常に小さな電流を扱っています。そのエネルギー、それらの電子、中間のそれらの光子を、すべての良い仕事をするために徐々に下げていく必要があります。
原子レベルでほぼ実際のドラマが展開される場所、つまりモデルのトレーニングと推論に実際に使用される数値演算、算術に、電力、メモリ、ロジックをすべて徐々に近づけていく必要があります。
その階層について考えるとき、念頭に置いておくべきメモリのレベルをいくつか特定してみましょう。メモリの高いレベルの一つは、フラッシュメモリです。これはソリッドステートドライブのようなものです。
これは非常に遅いメモリですが、電源が切れても動作し続けます。つまり、永続的なメモリです。動きは遅いですが、データセットや、あまり頻繁には発生しない興味深いモデルチェックポイントなどを保存したい場合に使用できるような種類のものです。
フラッシュメモリは非常に遅い長期的なものですが、例えば、データのバッチが入ってくるたびに更新される必要のあるメモリも必要です。データのバッチは絶え間なく入ってきます。そこで、高帯域幅メモリ（HBM）の出番です。
HBMは演算が行われる場所のすぐ近くに配置されており、DRAMと呼ばれる技術を使用しています。このDRAMについても後ほど詳しく説明しますが、データを維持するために定期的なリフレッシュが必要です。
各ビットは小さなコンデンサに電荷として格納されており、電流の漏れなどの物理的な影響により、その電荷は徐々に失われていきます。そのため、介入しないとミリ秒単位でデータが失われる可能性があるので、常にリフレッシュを続ける必要があります。
フラッシュメモリと比べてレイテンシーがはるかに低く、つまり、データの取り出しが非常に高速です。これは重要なポイントで、バッチ処理を行う際に非常に重要になってきます。通常、データの取り出しには数十ナノ秒程度かかります。
演算が行われる場所にさらに近づくと、SRAMが配置されています。SRAMは最も高速で、サブナノ秒のアクセス時間を実現しますが、非常に高価です。これは、演算に近づけば近づくほど、コンポーネントは小型化し、カスタム設計され、目的に特化したものになり、そして高価になっていくという費用の階層構造として考えることができます。
サイズ、コスト、レイテンシーなど、これらすべての要素に一貫した階層構造があり、それは私たちが興味を持つ演算を行う末端のノードに近づくにつれて明確になります。データセンターやチップはすべてこの意味でフラクタル構造を持っています。コンピューティングについて考えるとき、フラクタルについて考える必要があります。一つの幹から枝が分かれ、さらに小さな枝が分かれていく、まるで私たちの循環器系のように、基本的にすべての複雑な構造がそうなっています。
Factorioというゲームをプレイしている人なら、うなずくことでしょう。世界はこのようにフラクタルとして機能し、ノードでは徐々に解像度が高くなっていきますが、システム内で高い容量を持つ大きな幹や動脈からも恩恵を受けたいものです。
これは2010年代後半の大学院生時代を思い出させます。当時、主にやっていたことはニューラルネットをGPUに適合させることでした。8ギガバイトや16ギガバイトのメモリを持つGPUを使用し、Nvidia SMIを使ってどれだけのメモリが利用可能かを確認し、コードを実行してモデルをGPUにロードし、そうやって訓練を行っていました。
しばらくの間、それが一つのパラダイムでした。1つのGPU、1つのモデルで、モデルをGPUメモリに収めようとしていました。もちろん、今ではそれは機能しません。モデルは単一のGPUには大きすぎます。特に訓練時には、バックプロパゲーション、勾配の処理などが必要になります。推論時には、人々はモデルを縮小し、量子化して単一のGPUに収めようとすることもありますが、なぜ巨大なデータセンターが必要なのでしょうか？
それは、大量のGPUやTPUをまとめてパックする必要があるからです。Googleは2018年頃から256個のTPUを搭載したTPUポッドを提供していました。そして今では、ニューラルネットを多くのチップに分散させることができます。さらに状況は複雑になっています。なぜなら、メモリは単にモデルの重みを単一のGPUにロードするだけでなく、勾配に関する情報を転送し、重みを更新するための複雑なオーケストレーションを行う必要があるからです。正直なところ、私にはその仕組みがよくわかりません。
そうですね、その部分についても詳しく説明できますが、最近の推論モデルやデータセンター設計への影響に関連付けて説明したいと思います。メモリ、特にHBMは、ロジック（数値演算能力）よりも改善の速度が遅いことを指摘しておく必要があります。このことから、推論時により多くの計算を利用するこれらの推論モデルは、古いチップでも比較的うまく動作する可能性があります。
これを少し詳しく説明しましょう。推論時には、言語モデルをHBMからアクティブメモリにロードする必要があり、入力するバッチサイズ（データ量）は比較的小さくなる傾向があります。推論時にバッチサイズが小さくなる理由は、予測不可能なユーザーデータが断続的に入ってくるため、素早く応答を返さないとユーザーエクスペリエンスに影響が出てしまうからです。
通常、HBMの利点は、大量のデータをバッチ処理してまとめてロードし、メモリからのデータ読み込みの遅延を分散させることですが、そのために多くのユーザークエリが溜まるのを待つことはできません。ロジックはデータが入ってくるのを少し待つことになりますが、大量のバッチデータが来たときにそれだけの待ち時間は価値があります。
しかし、推論時には素早く応答を返す必要があるため、大きなバッチを作るために長く待つことはできず、小さなバッチで対応する必要があります。その結果、メモリ帯域幅はユーザーデータによって消費されるのではなく、モデル自体によって大部分が消費されることになります。
つまり、モデルをロードするための高いベースコストがあり、バッチサイズが小さいため、それらの計算を実行するためのロジックはそれほど必要ありません。たとえば、64のユーザークエリではなく8のユーザークエリを処理する場合、FLOPS（浮動小数点演算）への要求は比較的低くなります。
しかし、モデルが大きいため、ベースラインとして高いメモリ要件が必要です。ユーザークエリの数が少なくても、モデル自体が大きいため、HBMへの高いベースライン需要がありますが、FLOPSへの需要は比較的低くなります。FLOPSの改善は遅いため、1世代前のコンピュートに戻っても、FLOPSは大幅に失われますが、メモリはほぼ同じままです。
推論は、メモリ集約的な処理であり、計算集約的ではないため、古いマシンの方が適していることがあります。この説明全体を理解できなくても問題ありませんが、もし興味があれば、もう一度聞き直すか質問してください。これは、古いハードウェアが推論時の計算に有用になるという、私たちが見始めている本当に重要なトレンドの一つだと思います。
これは中国にとって大きな利点でもあります。なぜなら、彼らは古いハードウェアしか持っていないからです。そのため、推論時の計算や推論への転換は、中国のエコシステムにとって本当に興味深い利点となっています。
また、あなたが触れたバッチデータの話も別の興味深い点を提起しています。これは短い余談になりますが、説明してみましょう。バッチデータについて触れましたが、それは別の関連する詳細です。GPUをロードするだけでなく、データのバッチと考えられるものもロードしています。
つまり、データセットは入力と出力のペアであり、ニューラルネットを訓練する際や推論を行う際にも、一つの入力と出力だけでなく、まとめて処理を行います。N個の入力と出力があり、これは本質的なことです。なぜなら、ニューラルネットを訓練する際に、一度に一つの例だけを処理することもできますが、個々の例はあまり有用ではないからです。
重みを更新できますが、次の例が反対のクラスである可能性があり、正しい経路を見つけることができないでしょう。また、データセット全体を一度に処理することも現実的ではありません。全データセットを入力して、すべての入力と出力の平均を計算することはおそらくAできず、Bおそらく学習にとても良いとは言えません。
確率的勾配降下法の驚くべき点の一つは、25、50、250、256などの入力と出力のバッチを取ることが、実際にとてもうまく機能することです。理論的には、データセット全体を使用すべきです。それが勾配降下法のあるべき姿ですが、バッチを使用する確率的勾配降下法は、おそらく過学習を防ぎ、汎化性能を向上させる良い正則化要因となっています。
OpenAIの新しい点の一つは、巨大なバッチサイズにありました。バッチサイズを増やすと、GPUで必要なメモリ量が増加します。訓練時のバッチサイズは通常128や256と比較的小さかったのですが、バッチが大きければ大きいほど、訓練を高速化でき、パフォーマンスも向上する可能性がありました。ただし、通常は非常に大きなバッチを使用することはできませんでした。
OpenAIは、私の記憶では、2,000例程度の大きなバッチを使用し始めた最初の組織の一つでした。そして、非常に大きなモデルでの重要な気づきの一つは、特に訓練時に巨大なバッチが非常に有用だということでした。これは、メモリが重要なもう一つの理由であり、OpenAIやこの分野で優れた製品配信を持つ人々が享受する驚くべき利点の一つです。
多くのユーザーを持ち、非常に高いレートでクエリが入ってくると、推論時により大きなバッチを使用することができます。ユーザーに500ミリ秒以内に応答を返す必要があるとすると、基本的にはユーザーからのプロンプトを収集するために500ミリ秒待つことができ、その後一度にすべてを処理することになります。
任意の時点でのユーザー数が多ければ、それらのバッチを非常にうまく埋めることができ、GPUをより効率的に使用できます。これは、これらのモデルを提供している小規模な企業が実際に不利な立場にある理由の一つです。彼らはしばしば損失を出しながらモデルを提供しています。なぜなら、ハードウェアやエネルギーのコストを相殺するために必要な大きなバッチサイズを達成できないからです。
現在、この分野で使用されているVCのドルの多くは、特に推論時のこの小さなバッチサイズの現象のために消費されています。この時点で明確でない場合や、知らない人のために説明すると、バッチは次のように機能します。確かにN対Nの処理を行いますが、それらはすべて並列で行われます。
すべての入力を一緒に与え、すべての出力を一緒に取得します。そのため、GPUを埋めることになり、これがGPU使用率という重要なメトリクスの一つとなります。一度に一つの例を処理すると、メモリの使用量は少なくなりますが、時間を無駄にしています。一つずつ処理する必要があるからです。
一方、GPUが処理できる最大数の例を使用すると、それらの出力をすべて一緒に取得でき、GPUを100%活用することができます。これは、モデルアーキテクチャとハードウェアアーキテクチャの間のダンスに関連しています。
CPUは少数のコアを持っています。コアは実際に計算を行う部分で、非常に高速で柔軟なコアですが、数は少ないです。一方、GPUは数千のコアを持つことができますが、個々のコアは非常に遅いです。これにより、非常に並列化可能なタスクがある場合、つまり、各コアが並列で処理できる1,000や4,000、16,000の小さなタスクに分割できる場合、各コアがCPUと比べて比較的遅くても問題ありません。
すべてのコアが同時に数値を処理していれば、CPUコアが20程度処理する間に、何千もの演算を実行できます。つまり、コアごとのベースでは遅いですが、多くのコアがあるため、その遅さを相殺して、はるかに高速に処理できます。これが今日のAIが機能する核心です。
ニューラルネットワークは非常に並列化が可能でニューラルネットワークは様々な方法で分割することができます。たとえば、一度に大量のプロンプトを入力することができます。これはデータパラレリズムと呼ばれ、データの一部を1セットのGPUに、別の一部を別のセットのGPUに送ることで、基本的にそのデータの処理を並列化します。
また、ニューラルネットワークを層ごとに分割することもできます。0から4層目までをこれらのGPUに、5から8層目までをこれらのGPUに配置するというように。これはパイプラインパラレリズムと呼ばれます。モデルのパイプラインの各段階で、モデルを長手方向に分割し、モデルの異なる部分を異なるGPUに割り当てているイメージです。
さらにテンソルパラレリズムもあります。これは特定の層の中で、その層を半分に分割し、GPUにモデルの一部だけを処理させるというものです。これら3種類のパラレリズム（データパラレリズム、パイプラインパラレリズム、テンソルパラレリズム）は、現代の高性能AIデータセンターでの大規模な訓練実行において、重複した形で使用されています。
これらはハードウェアレベルでも反映されています。データセンターには、データセットの一部を処理するGPUのチャンクがあり、そのGPUの中の一部のサブセットはパイプラインパラレリズムを通じてモデルの数層を専門に処理し、そのGPUセット内の特定のGPUはテンソルパラレリズムを通じて層の特定の部分を処理します。このようにして、モデルをできるだけ多くの異なるマシンに分割し、この並列処理の恩恵を受けることができます。
ところで、なぜグラフィック処理ユニットがAIに適していることが判明したのか、それは別の興味深い詳細です。すべては行列の乗算に帰着します。すべては数の集まりで、一つのベクトル（数の集まり）を別のベクトルと掛け合わせて出力を得る必要があります。これが典型的な層です。N個の接続と入力があり、一つの活性化ユニットがあるので、2つの層を持つことになり、ベクトルを使用します。
3D計算を行うにも、同様に多くの数学、多くの行列の掛け合わせが必要で、レンダリングを行うために必要です。つまり、行列の掛け合わせは、CPUで一つ一つのステップを実行する必要がある長い方程式と比べて、1,000個のコアで並列化することで非常にうまく処理できることがわかります。基本的に、3Dレンダリングは線形代数の集まりで、ニューラルネットも線形代数の集まりなので、グラフィックス用の線形代数をニューラルネットにも使用できることが判明し、それが非常に適していた理由です。
テンソル処理ユニットの場合、テンソルは行列に次元を加えたものですが、さらに多くの線形代数を行います。それが全ての基本です。
素晴らしい要約ですね。これで基本的な部分を理解したところで、データセンターフロアと、次の規模拡大で使用される現在および新興のAIハードウェアシステムについて見てみましょう。特にGB200について考えています。Semi Analysisには、GB200のセットアップ方法について素晴らしい分析があります。この部分は主にそこから引用していますが、文脈や深い理解のために補足も加えています。
ところで、Semi Analysisはお勧めです。Semi Analysisは素晴らしいですが、一つの課題は非常に技術的だということです。多くの人に推薦していますが、時々読んでみると「これが知る必要のあることだとわかるけど、彼らが言っていることを深く理解するのは本当に難しい」と言われます。そのため、このエピソードが理解の助けになることを願っています。
少なくとも、Semi Analysisが取り上げたストーリーを私たちが取り上げるときは、できるだけ多くの翻訳を試みています。ただし、警告しておくと、かなり高価なニュースレターで、技術的な深さにも踏み込みます。興味がある人は、無料のコンテンツもあるのでぜひチェックしてみてください。
予防線を張っておきたいのですが、線形代数だけではないと指摘したい人がいるかもしれません。有名な非線形活性化関数があり、それは必要不可欠です。それは正確には代数ではなく、行列の掛け合わせだけではない関数があります。現代の活性化関数はできるだけそれを避けようとしています。事実に反することは言いたくないので、FYIとして言っておきます。
実際、そこには興味深い数学的な事実があります。その非線形性がなければ、行列を掛け合わせることは、線形代数の観点からは1つの行列を持つことと同じになります。とにかく、データセンターフロアに足を踏み入れて、GB200について話しましょう。
なぜGB200なのでしょうか？まず第一に、H100はしばらく前からありますが、後で少し触れます。GB200は次のステップであり、より未来志向の方向性を持っているため、見る価値があると思います。これはNVIDIAから発表され、まだ出荷されていないのですよね？それとも既に販売されているのでしょうか？
私の理解では既に販売が開始されていますが、始まったばかりです。基本的に、これはGPUテクノロジーの最新最高峰というわけです。まず最初に明確にしておく必要があるのは、B200について言及している記事と、GB200やDGX B、B200 DGXなどについて言及している記事があることです。これらは一体何なのでしょうか？
最初に指摘したいのは、B200 GPUと呼ばれるものがあり、これはGPUです。GPUは非常に特定のハードウェアの部品で、シリコンレベルで私たちが興味を持つ演算を行う基本的なコンポーネントです。しかし、GPUだけでは...うーん、良い例えは何でしょうか？それは、すごくマッチョだけど頭が悪い人のようなものです。
何かを持ち上げてほしいものなら何でも持ち上げることができますが、何を持ち上げればいいのか教えてあげる必要があります。なぜなら頭が悪い人だけど、ただマッチョなだけだからです。つまり、B200自体には何をすべきか指示する何かが必要です。指揮者が必要です。少なくともCPUが必要です。これが通常の仕組みです。
B200 GPUは素晴らしいですが、サーバーラックやデータセンターに設置する場合は、何をすべきか指示し、その活動を調整するのを助けるCPUとペアにすることを望むはずです。さらに良いのは、2つのGPUを並べて、その間にCPUを置いて、少し調整を手伝わせることです。小さなダンスを手伝わせるのです。
ところで、CPUも自身のメモリが必要になります。そのためのメモリがあることを想像する必要がありますが、基本的にはCPUと2つのGPUがこの小さなマザーボード上にあります。そうですね、それは2人のマッチョな人と、アパートを引っ越す際の監督者のようなものです。そこまでたどり着きましたね。ますます、ローマ軍のような構造になってきました。大佐がいて、その下に強い兵士たちがいて...大佐に指示を出す人がいて...わかりません。
とにかく、このマザーボード上にCPUがあり、この2つのB200 GPUがあります。GB200の場合、これが今のところ私たちが話す原子的な要素です。マザーボードは大きな長方形のようなもので、2つの長方形を並べて置きます。2つのマザーボードを並べ、それぞれに1つのCPUと2つのB200 GPUがあります。合計で4つのGPU、2つのCPUがあり、これがGB200トレイと呼ばれます。
それぞれのものはBiancaボードと呼ばれます。つまり、BiancaボードとはCPUと2つのGPUを搭載したもので、2つのBiancaボードを合わせてトレイになります。これがデータセンターのサーバーラックの1スロットに収まります。
前面には、各GPUのための特別なコネクタがあり、これらのGPUが同じサーバーラック内や、その直近の環境にある他のGPUに接続できるようになっています。これらはNVLinkケーブルと呼ばれる特別なNVIDIAの銅ケーブルを通じて接続されます。代替品もありますが、これは一種の業界標準となっています。
これを全体として考えると、非常に密接に相互接続されたGPUのセットと考えることができます。なぜ銅なのでしょうか？銅の相互接続は、これらのGPU間でデータを移動するのに非常に効率的だからです。これはまた、NVスイッチと呼ばれる特別なスイッチを通過し、これらのGPU間の接続を仲介する助けとなります。
結論として、これらのGPUは銅の相互接続を通じて非常に密接に接続されています。非常に高価ですが、同時に非常に効率的です。この計算の束は、基本的にはテンソルパラレリズムのような、最も高い帯域幅を必要とする処理を行います。これはGPU間で最も頻繁な通信を必要とするものなので、最も高価な相互接続であるNVLinkを使用します。
大まかに言えば、相互接続が高価であればあるほど、これらのGPUはローカルなポッドの中でより密接に結合されており、頻繁な通信を必要とするアプリケーションに使用したいと考えます。テンソルパラレリズムがそうなのは、基本的にニューラルネットワークの層、あるいは数層を切り分けているからです。
しかし、コヒーレントな出力を得るためには、そのデータを再結合する必要があります。なぜなら、層の一部だけでは多くのことができないからです。それらは常に非常に高速に通信する必要があります。そうでないと、単なるゴミの集まりになってしまうからです。それらは高次の抽象化レベルで非常にコヒーレントである必要があります。
パイプラインパラレリズムの場合、ニューラルネットワーク全体の層について話しており、一つのポッドが一組の層を処理し、別のポッドが別の組の層を処理します。通信は必要ですが、少し遅くても構いません。なぜなら、層の断片が常に通信する必要があるわけではないからです。
少なくとも層のレベルでコヒーレントである必要があるからです。PCIeなどの相互接続を使用することもできますし、異なるノード間でインフィニバンドを使用することもできます。これは別の形式のより遅いネットワークです。ただし、ポッドは、ここでよく使用されるパイプラインパラレリズムの基本単位です。これはバックエンドネットワークと呼ばれます。
テンソルパラレリズム、つまり層の一部を分割してサーバーラック全体で処理するというこのアイデアは、NVLinkコネクタを通じて非常に効率的に接続されます。これは通常、アクセラレータインターコネクトと呼ばれます。つまり、非常にローカルな相互接続です。
パイプラインパラレリズムは、この少し遅い、異なる層が相互に通信するものですが、これは通常、データセンターのバックエンドネットワークと呼ばれます。アクセラレータインターコネクトは本当に高速なものに使用され、バックエンドネットワークは少し遅いものに使用されます。
そして通常、データセンター全体のレベルでは、データパラレリズムを行う際に、データの一部をこちらに、別の一部をあちらに送ります。ユーザークエリを送信すると、それらは分割されます。これがフロントエンドネットワークです。
つまり、フロントエンドは最も遅く、通常は最も安価なハードウェアを使用します。なぜなら、そこまでの速度は必要ないからです。バックエンドはインフィニバンドを使用してより高速になり、通常は層間で移動します（これは変わる可能性がありますが、具体的に説明しようとしています）。そして、アクセラレータインターコネクトはバックエンドネットワークよりもさらに高速です。そこで行われる活動はこのようになります。これはデータセンターをセットアップする一つの方法で、常にこのような階層構造が見られますが、具体的な実装は大きく異なる可能性があります。
ハードウェアやモデルを設計する際は、基本的にモデルをどのように設計すれば、このGPUにモデルの一部を、あのGPUに別の部分を配置し、層をこのように分割してハードウェアを最大限に活用できるかを考えることになります。特に最近では、コンピューティングからより多くを引き出すことが主な制限要因となっているため、ハードウェアを意識したアルゴリズム設計が必要です。
これはTPUとGoogleに関する別の大きな側面だと思います。GoogleはTPUの観点からだけでなく、データセンターの専門知識を持っていたことが、OpenAIが懸念した理由の一つでした。これはGoogleが進出した理由の一部で、彼らはデータセンターの構築が本当に得意でした。
彼らは早い段階からゲームに参加し、TPU（テンソル処理ユニット）を作っただけでなく、かなり早い段階でTPUポッドの作業も始めました。そこでは256個、2000個のTPUを組み合わせ、おそらくあなたが言及したようなメモリの最適化を行い、より大きなニューラルネット、より高速な処理などを実現しました。
実際にそれは素晴らしい指摘です。コヒーレントな計算の塊とは何かという興味深い概念があります。これについて本当に考えるべき方法は、その塊のレベルで展開される活動のレイテンシー、タイムラインの観点からです。
テンソルパラレリズムにとってコヒーレントな計算の塊とは何でしょうか？これらの計算は本当に迅速で効率的ですが、その後すぐに次に進む必要があるため、非常に高速である必要があります。
Googleが本当にうまくやってきたことの一つは、これらのポッドが実際に非常に多数のチップをコヒーレントにリンクできることです。場合によっては数百のチップを扱うことになります。TPU V4の場合、256個が標準的な構成の一つだと思います。
ここで強調すべき重要なことの一つは、現在、GPU（B200）とそれが組み込まれているシステム（GB200）の間に違いがあるということです。GB200は定義上、CPU、2つのGPU、その他の補助的なものを備えたトレイを指します。これがBiancaボードで、その隣に別のBiancaボードがあり、合わせて1つのGB200トレイになります。
私たちはGPUについて話していますが、GB200の基本的なアイデアはそれらのGPUに有用な仕事をさせることです。しかし、そのためにはB200 GPU以外にも多くの補助的なインフラが必要です。B200 GPUとCPU、そしてそれらの補助的なものをパッケージングすることは、例えばFoxconnのような企業が行っています。
NVIDIAがGPUの出荷を完了した後、誰かがこれらを組み立てる必要があります。NVIDIAも一部を行うことができますが、Foxconnのような企業が参入することができます。メキシコの工場についての記事を取り上げたと思いますが、彼らはこの種の作業を行っています。実際にスーパーコンピュータを構築し、これらすべてをサーバーにまとめて出荷しているのです。
そのスタックの異なる層はFoxconnとNVIDIAで異なりますが、基本的にGB200システムとB200 GPUを区別したいと思います。GB200システムも異なる構成で存在できます。
たとえば、1つのラックに32個のB200 GPUがあり、それらがすべて密接に接続されている設定や、72個あるバージョンを想像できます。多くの場合、これを決定するのは、サーバーラックに実際に供給できる電力密度です。
電力インフラや冷却インフラがそれらのラックを動作させ続けるのに十分でない場合、やむを得ず性能を落とし、文字通り特定のラックにより少ない計算容量しか置けないことになります。これはデータセンターを設計する際の典型的なトレードオフの一つです。
そうですね、データセンターの設計と建設の別の重要な側面として、人々が背景を持っていない場合のもう一つの大きな要素は冷却です。
半導体の仕組みとして、電気を使用してエネルギーを使用すると熱が発生し、GPUのような大量の計算を行うと多くの熱が発生します。GPUを本当によく使用すると、実際に少し温まることがあります。
これらのラックで大量の計算を集中させようとすると、液体冷却のような高度な冷却が必要になります。これが、データセンターが水を消費する理由の一つです。AIの気候への影響を見る際に、水の使用量を指標の一つとして挙げることが多いのはこのためです。
気候の観点からデータセンターの場所を気にする理由であり、おそらくこれらのコアやシステムのエンジニアリングの大きな部分でもあります。
その通りです。実際、それはH100シリーズのチップが有名な理由の一つです。液体冷却構成を持つ最初のチップだったからです。Blackwellはすべて液体冷却が必要です。このB200以降の次世代インフラでは、データセンターに液体冷却を統合する必要があります。
これらは非常に多くの熱を発生させ、非常に多くの電力を消費するため、今では生活の一部となっています。計算と電力消散の間には還元不可能な関係があります。これらの2つは深く結びついています。
ここで、B200、つまりGPUそのものについて詳しく見ていくのが良いと思います。Biancaマザーボードにあってオーケストレーションを助けるGrace CPUではなく、具体的にB200 GPU、あるいは一般的なGPUについて見ていきましょう。
そのコンポーネントを見ていくことで、製造、パッケージング、TSMCの役割、そして主要なプレイヤーの紹介につながっていくと思います。それでよろしいでしょうか？
はい、そう思います。GPUを見ていくと、すぐに2つの重要なコンポーネントが浮かび上がってきます。これは後でも出てきますが、ロジックとメモリという、AIで有用なことを行うために必要な2つの基本的な要素です。
メモリから始めましょう。なぜなら、すでにメモリについて話をしているからです。レイテンシー、容量、帯域幅が重要です。私たちは高帯域幅メモリ（HBM）を使用します。これはGPUに搭載され、HBMのスタックを持ちます。
これらは基本的に、スタックの各層が多数のコンデンサを含むグリッドのようなもので、各コンデンサが情報を格納します。そのグリッドから効率的に数値を取り出す必要があります。
歴史的に、これらの層はDRAMです。DRAMは非常に古くからあるメモリの形式ですが、HBMの革新は、それらのDRAM層を積み重ね、シリコン貫通ビア（TSV）と呼ばれるものでそれらのスタックを接続したことです。
TSVは重要です。なぜなら、これらの層からすべて同時にデータを取り出すことができるからです。そのため、システムを通じて大量のデータスループットを得ることができます。基本的に、スタック内のすべての層から一度にデータを取り出しているからです。
多くのDRAM層があり、8層バージョン、12層バージョンがあります。最新バージョンは12層を持っています。ところで、HBMを製造する企業は、チップ上にあるロジックを製造する企業とは異なります。
HBM企業、つまりメモリ企業として重要なのは、基本的に韓国のSK HynixとSamsungの2社です。アメリカにはMicronもありますが、彼らは現在市場シェアをほとんど持っていません。
基本的に、NVIDIAのGPUを見る場合、SK Hynixなどからのスタックを持つことになります。これらは大量のデータを取り出すのが本当に得意です。レイテンシーは素晴らしくありませんが、一度に大量のデータを取り出して、メインのGPUダイ、つまり計算ダイに供給します。
これらの用語は互換的に使用されますが、GPUのロジック部分を指し、実際に計算を行う場所です。H100の場合、これはGH100として知られることもありますが、これが基本的に魔法が起こる場所です。
ロジックダイにHBMから一度に大量のデータを取り込んでいます。HBMとメインのGPUダイの違いの一つは、これらを製造するプロセスが非常に異なることです。HBM（高帯域幅メモリ）を作るのと、本当に良いロジックダイを作るのとでは、非常に異なる専門知識が必要です。
これは、これらを実際に構築する製造施設（ファブ）が異なることを意味します。SK HynixがあなたのためにHBMを作るかもしれませんが、ロジックダイはほぼ間違いなくTSMCが作ることになります。
理由の一部は、プロセスの理由ですが、有効解像度の部分もあります。ロジックダイは非常に不規則な構造です。高帯域幅メモリは基本的に積み重ねられたグリッドで、非常に規則的です。その結果、いくつかのことが起こります。
製造プロセスにそれほど高い解像度が必要ないため、通常、HBM3の場合、10〜14nmのプロセスを使用します。しかし、ロジックの場合、非常に特殊で不規則な構造のトランジスタを構築しているため、結果として4〜5nmの非常に高グレードのプロセスが必要になります。
これは、TSMCが単純に方向転換してHBMを簡単に作れるということを意味しません。TSMCは通常、本当に最先端のプロセスをすべて行っていますが、異なるコア・コンピテンシーが必要なため、HBMを簡単に作ることはできません。
したがって、必要なことは、HBMを一つの会社から、ロジックを別の会社から調達し、それらを何らかの形で一緒にダンスさせる必要があります。ロジックとメモリの両方を同じチップ上に含める必要があります。
現在、人々が採用している解決策は、インターポーザを使用することです。インターポーザは、ロジックとメモリ、そしていくつかの他のコンポーネントが載る構造で、基本的にHBMの底部からロジックの底部まで接続を作成し、異なるコンポーネントを結びつけるチップレベルの接続を作ることができます。
これはパッケージングと呼ばれるプロセスです。TSMCは有名なCoWoSパッケージングプロセスを持っています。CoWoSにはCoWoS-SとCoWoS-Lの2種類があり、詳細に入る時間はありませんが、とても魅力的です。
要するに、これはメモリダイとメインのGPUダイ（ロジックダイ）を結びつける方法です。また、パッケージを下に移動するにつれて、インターコネクトの解像度が低くなり、より粗くなり、より大きくなるという興味深いことが起こります。
チップレベルでは、接続の解像度が非常に高く、ピッチサイズ（構造の解像度）が非常に細かく、非常に小さいのですが、できるだけ早くそれを意図的に減少させたいと考えています。
なぜなら、より太い配線を使用できるようになり、電力供給の観点からより効率的になり、より古い製造プロセスを使用できるようになるからです。可能な限り早く、本当に高度なプロセスを必要とするものから離れたいと考えています。
これが基本的な状況です。積み重ねられたDRAM、つまり高帯域幅メモリのスタックが、実際に計算を行うGPUダイ（ロジックダイ）の隣にあり、これらはすべてインターポーザの上に載っています。インターポーザはそれらを結びつけ、優れた熱特性などを持っています。
その点について、TSMCとファブ、そしてそれらが物語の一部である理由について、もう少し背景を説明する必要があると思います。ファブは製造を意味し、基本的な建材を取り、それをコンピューティングに変換する場所です。技術的でない人のために、まず半導体とは何かを説明しましょう。それは文字通り半導体であり、量子力学やその他の魔法のおかげで、電流を通したり通さなかったりすることができる材料です。これがコンピューティングの最も基本的な構成要素です。
では、Fabとは何でしょうか。原材料を取り、ナノメートルスケールの構造体を作り出す場所です。その構造体に電力を供給することで、オンとオフを切り替えることができ、様々なパターンを組み合わせて計算を行うことができます。
なぜ製造がこれほど複雑で、なぜTSMCが唯一の重要なプレイヤーなのでしょうか。先ほど触れたように、これは人類が作り出した最も高度な技術の一つです。原材料を取り、半導体のためにナノメートルサイズのパターンを正確に作り出す必要があります。その過程で、非常に少ない欠陥しか許されない状態で10億回もの工程を繰り返さなければなりません。ナノメートルサイズのパターンを扱う際、ほんの少しのゴミが混入しただけでも、それは数多くのトランジスタよりも大きくなってしまいます。チップを台無しにしてしまう可能性のある要因は数百万とあります。
これは非常に繊細で複雑な作業であり、ナノメートルスケールでの製造を可能にする技術は信じられないほど高度で精密なものです。量子効果も考慮する必要があり、状況はさらに複雑になっています。
私たちが以前説明したように、TSMCは米国に進出しようとしていますが、Fabの設置には数年かかる見込みです。これは、高度な装置を非常に繊細な方法で設置する必要があるためです。文字通り、シリコンの大きな塊を取り、それを円形に切断し、様々な工程を行う機械の間を移動させながら、最終的に正しいパターンを持つものを作り出さなければなりません。
この仕組みの詳細や高度な側面については、私にもわからないことが多くあります。最先端の技術を手に入れるには何億ドルもの費用がかかり、現在の解像度で2ナノメートルレベルのパターンを作るために必要な技術を持っている企業は1社しかありません。そのため、NVIDIAはTSMCに製造を委託しているのです。TSMCはこの技術を完璧に習得し、非常に少数の組織しか試すことすらできないような技術を実現する専門知識と能力を持っています。
これはまた、中国が最先端のチップに簡単に追いつけない理由でもあります。それは信じられないほど高度な技術なのです。
そうですね。ところで、プロセスノードやプロセス、ノードと呼ばれるものについて話をしましょう。これらはTSMCのような企業が使用する製造プロセスを指します。TSMCは少なくとも最近まで、7ナノメートルプロセスノードや5ナノメートルプロセスノードなど、ナノメートル単位の数字でプロセスを識別していました。
この用語には3つの理解レベルがあります。第1のレベルでは、7ナノメートルプロセスノードと言う場合、7ナノメートルの解像度で半導体を製造しているという意味に聞こえます。これはかなり印象的に聞こえますね。
第2のレベルでは、実はそれは嘘だと指摘されます。時にはマーケティング用語と呼ばれることもありますが、それは第3のレベルを考えると正確ではありません。7ナノメートルという表現はマーケティング用語と呼ばれることがありますが、実際には7ナノメートルの解像度を持つ部品は存在しません。
7ナノメートルという数字が実際に指しているのは、ムーアの法則の歴史的なトレンドが続いた場合に得られるはずのパフォーマンスです。2マイクロンの解像度について語っていた時代には、それは実際にその数字を指していました。そのトレンドを続けていけば、7ナノメートルの閾値に到達したときのトランジスタ密度に相当するものが得られるというわけです。ただし、私たちは異なる方法でそれを実現しています。
これについての私の見解としては、実際にはマーケティング用語というよりも、バイヤーが実際に気にする結果ベースの用語だと思います。7ナノメートルで製造しているかのように、あるいは3ナノメートルで製造しているかのようにパフォーマンスが出るかどうかが重要なのです。
そして今、私たちは水素原子を10個並べたような大きさのナノメートル数に達しつつあります。もちろん、実際にその解像度で製造することはできませんし、仮にできたとしても、量子トンネル効果によって不可能になってしまうでしょう。
現在の最先端のノードは2ナノメートルノードに移行しつつあります。一般的に見られるのは、最先端のノードがAppleによってほぼ完全に独占されているという状況です。スマートフォン企業は小型化と高速化を求めており、Appleは投資を惜しみません。そのため、TSMCと協力して毎年あるいは各サイクルで最先端のノードを開発しています。
これはTSMCにとって大きな戦略的優位性となります。TSMCの以前の競合企業であるGlobal Foundriesなどは、次の開発を支援してくれるパートナーが必要なため、大きな苦労を強いられています。AppleのようなパートナーがTSMCと協力してくれることは、大きな強みとなっているのです。
これにより、Appleは毎年スマートフォン向けに最も先進的なノードを独占することができます。その結果、その次のノードがAIアプリケーション向けに解放されることになります。しかし、この状況は変化する可能性があります。AIの需要が増加し、NVIDIAがAppleと競争してTSMCと同様のディールを結べるようになる可能性があるのです。
もしAIがiPhoneの売上などよりもはるかに多くの収益を生み出すようになれば、NVIDIAが割り込んでくる可能性があり、その力学が変化するかもしれません。しかし、現時点ではそのような形で展開されています。NVIDIAはH100向けに5ナノメートルプロセスを使用することができます。実際には4ナノメートルプロセスの使用を開始しましたが、これは5ナノメートルの派生型です。細かい違いはそれほど重要ではありません。
基本的に、TSMCがこのような効果を達成する方法に関する話は、トランジスタの形状をどのように設計するかということに関係しています。最近のブレークスルー以前のブレークスルーは、FinFETと呼ばれるものでした。これは、トランジスタにフィン状の構造を組み込むもので、様々な理由で非常に効果的でした。
次のサイクルで導入されるゲートオールアラウンドトランジスタは、はるかに効率的になるでしょう。要するに、トランジスタを構成する構造の形状をどのように調整して、より効果的にし、より小さな電流で動作させ、電力密度の観点からより良くし、熱特性を改善するかということを検討しているのです。
しかし、もう一つの側面は、その構造を作り出す実際のプロセス自体です。このプロセスは基本的にレシピのようなものです。これがTSMCを機能させる本当の魔法、秘訣なのです。TSMCの行っていることを複製したい場合、現在のレシピに至るまでの同じような反復プロセスを踏む必要があります。
これは、材料を使って何度も何度も試行錯誤を重ねて、本当に良い結果を得るシェフのようなものです。TSMCのFabは、500個のつまみがついた箱のようなもので、PhDを持つ人々が一つ一つのつまみを調整しています。彼らには途方もない額の給料が支払われ、膨大な時間がかかります。
例えば7ナノメートルプロセスノードから始めて、そこで学んだことを基に5ナノ、3ナノ、2ナノへと反復を重ねていきます。実際に手を動かしてやってみる必要があり、その階層を一つずつ下っていく必要があります。7ナノメートルで学んだことが、5ナノ、3ナノ、2ナノでの作業の形を決めていくからです。
これは、例えばTSMCが北米などで最先端のノードから始めて新しいFabを立ち上げようとする際の課題の一つです。そのようなことは実際にはできません。数世代前から始めて、徐々に現地で下っていくのが最善です。なぜなら、一般的に別の場所で行っていることを複製しようとしても、気圧や湿度など、すべてが少し異なり、物事は壊れてしまうからです。
これは、Intelが有名に「完全コピー」というFabの設計哲学を持っていた理由でもあります。これは、トイレのペンキの色に至るまで、すべてを仕様通りに完全にコピーしなければならないという有名な方針でした。なぜなら、ある1つのFabの収率が素晴らしく、もう1つが悪いという理由が誰にもわからなかったからです。「わからないから、何も変えないようにしよう」というのが方針だったのです。
TSMCも同様の方針を持っていますが、これはいかにこの作業が難しいかを物語っています。これは本当に、本当に難しい仕事なのです。
実際のプロセスは、純粋なシリコンウェハーから始まります。基本的に、精製された砂からウェハーを得て、その上に酸化膜を形成します。これは酸素や水蒸気で、表面を保護し、電流の漏れを防ぐためのものです。
その上に、光に反応する材料の層を堆積させます。これはフォトレジストと呼ばれます。フォトレジストの考え方は、光に当てると一部が溶解可能になり、何らかのプロセスで除去できるということです。あるいは、硬化する場合もあります。露光された部分が残るか除去されるかによって、ポジ型フォトレジストかネガ型フォトレジストかが決まります。
基本的に、フォトレジストはウェハーに当たる光の痕跡を特定の方法で保持できる物質です。純粋なシリコンウェハーは、最終的に多数のダイを作るためのウェハーとなります。例えばH200のダイを1枚のウェハーに多数作ることになります。
フォトレジストを塗布したら、次のステップは、レチクルやフォトマスクと呼ばれるチップのパターンに光源を当てることです。通過する光がそのパターンをエンコードし、フォトレジストにそのパターンを描き出します。露光された領域ができ、そのパターンをウェハー全体にラスタースキャン的な方法で複製していきます。
その後、フォトレジストを取り除き、イオン注入などのステップを行います。小型の粒子加速器を使って、シリコンにイオンを打ち込んでドーピングを行います。半導体にはドーパントが必要だからです。不完全性を作り出すことで、電子の流れ方が変わります。これは本当に魔法のようなものです。
話は変わりますが、「完全コピー」に関連して、もう一つ面白い詳細があります。TSMCがこれほど支配的で、なぜ台頭したかの根本的な理由の一つは収率です。実際には完璧にはなりえません。製造の基本的な特性として、製品の一部は機能せず、使用できないのです。これが収率です。90%の収率が得られれば、それは非常に良いことです。製造したものの10%しか壊れていないということですから。
より小型化が進み、特に新しいFabを立ち上げる際には、収率は最初は悪くなります。これは避けられません。TSMCは収率を急速に改善することが非常に得意です。これが競争の基本的な側面です。収率が悪ければ経済的に成り立たず、100%負けてしまいます。
実際、中国のSMIC（TSMCの競合企業）に関して言えば、これは非常に面白い方法でTSMCの産業技術を盗んだ企業ですが、訴訟など多くの問題がありました。
SMICは多くの情報を盗み、かなり成功裏に複製しました。現在は7ナノメートルレベルに達し、5ナノメートルにも取り組んでいます。しかし、彼らの収率はかなり悪いと考えられています。
中国に関して興味深いのは、製造業への政府の大規模な補助金があるため、収率はそれほど重要ではないということです。中国政府（中国共産党）はこれを重要な戦略的分野として特定しており、この分野に資金を投入する意思があるため、市場競争力を維持できる可能性があります。
この製造プロセスには多くのステップがあります。その多くはクリーニングです。表面を磨いたり、すべてが水平になるようにクリーニングしたりする退屈な作業が多くあります。私はこの分野に詳しい人々と多く仕事をしているので、詳しい話に興味を持っていますが、ここでは控えめにしておきましょう。
このプロセスで最も注目に値する部分は、基本的に光源をレチクルに当て、ウェハーに回路を印刷したいパターンが含まれているフォトマスクに光を当てるというアイデアです。その光源とその周りの光学系全体が、ここでの職人技の大きな部分を占めています。
これを難しくしている要因を考えてみましょう。まず、レシピがあります。多くの層のフォトマスク、エッチング、イオン注入、堆積など、どのように行うかというノウハウです。これがTSMCが本当によく知っていることで、コピーすることが本当に難しいものです。
しかし、それをコピーできたとしても、フォトリソグラフィと呼ばれる、ウェハーに特定のパターンを露光するための光源が必要です。そのため、フォトリソグラフィ装置がAIのサプライチェーン、ハードウェアのサプライチェーンで絶対に重要になってきます。
これを本当によくできる企業は実質的に1社しかありません。それはある意味で複数の企業の複合体です。オランダのASMLという会社で、Carl Zeissという会社と非常に興味深い重なり合う歴史を持っています。所有構造や人材の重なりなどにより、基本的に企業の複合体となっています。
フォトリソグラフィについて話すとき、つまり、チップやウェハーに高精度でパターンを付けるための光の照射という非常に困難な段階について話すとき、それはASMLが製造するフォトリソグラフィ装置によって行われることになります。
これで、この話の最後の段階、つまりフォトリソグラフィ装置自体がどのように機能し、なぜそれほど重要なのかという話に進むことができます。TSMCについて付け加えたいことはありますか？
一つ触れておきたいのは、プロセスノードに関連してムーアの法則がどう関係しているかです。10年前の2011年には28ナノメートルの段階でしたが、現在ではAI用に5ナノメートル、あるいは4ナノメートルを使用し、2ナノメートルを目指しています。
これはムーアの法則に従っていません。経験的に見て、ムーアの法則は減速しています。80年代や初期に比べて、より小さなプロセスサイズに到達するのがはるかに遅くなっています。これが、CPUがマルチコアを持つようになり、並列化が進んだ理由の一部です。そしてこれが、GPUがこれほど重要になっている理由です。
より小さなプロセスノードに簡単にスケールダウンできなくても、それは非常に困難ですが、GPUの設計を改良するだけで、たとえトランジスタの密度が高くならなくても、コアをより効率的に連携させ、チップを特定の方法で設計することで、以前はトランジスタの小型化で得られていたような計算速度と容量の向上を得ることができます。
FinFETやゲートオールアラウンドのおかげで、製造プロセス自体にも驚くべき堅牢性が見られます。5ナノメートルプロセスは2020年頃に登場し、2023年初めには3ナノメートルに到達しました。つまり、まだ余地はありますが、確かに減速していると言えます。
新しいFabの設置に必要な莫大な資本支出のため、TSMCは2028年、2029年頃までの次の3つのノードのスケジュールを示すことができます。新しいFabの設置には数百億ドルの費用がかかることを指摘する必要があります。空母並みのリスク資本です。
そして本当にリスク資本なのです。なぜなら、アンドレが言ったように、Fabを建設し、収率が良くなることを願うだけだからです。最初は良くならない可能性が高く、それは恐ろしい時期です。これは非常にリスクの高い産業です。TSMCは市場への露出という点で、非常に厳しい現実に直面しています。
さて、フォトリソグラフィについて話しましょう。これは製造プロセスの最後の栄光ある段階で、ここで高解像度の多くが実現されます。この解像度の多くはここから来ています。
まず、DUV（Deep Ultraviolet：深紫外線）リソグラフィ装置から始めましょう。これにより、現在の位置、つまり7ナノメートルノード、あるいは5ナノメートルノードまでおおよそ到達することができました。
DUVについて最初に注目したいのは、光の波長が画像を作る精度を決定するという物理法則があるということです。この場合、パターンを刻印する精度です。193ナノメートルの光源を持っている場合、通常、数百ナノメートル程度の解像度で物を画像化できると考えます。
これを変更するためにできることはたくさんあります。より大きなレンズを使用することができ、基本的にこれにより、より多くの光線を集め、より集中的に、またはより制御された方法で焦点を合わせ、より良い画像を得ることができます。しかし一般的に、光の波長は大きな要因となり、レンズのサイズは数値開口数と呼ばれるもう一つの重要な要素となります。
深紫外光に使用される波長は193ナノメートルです。これは大きな機械で、何百万ドルもの費用がかかります。多くのレンズとミラーを備えており、最終的にはフォトマスクに光を当てます。軸外照明や後にはイマージョンリソグラフィなど、興味深い技術がたくさんありますが、基本的には、このレーザーを照射し、7ナノメートルの特徴サイズを可能にするレンズワークを非常に賢く使用しようとしています。
マルチパターニングと呼ばれる技術を使用すれば、DUVで7ナノメートル以上進むことができます。基本的に、ウェハーを一度通過させ、同じレーザーでもう一度通過させます。これにより、製造過程でダイに対して最初のパスを行い、必ずしも修正ではありませんが、改善のパスを行うことができます。
課題は、これによってスループットが減少することです。ウェハーを1回通過させる代わりに、2回、3回、4回と通過させなければならず、出力が遅くなることを意味します。これらの信じられないほど高価なフォトリソグラフィ装置のコストを、製造できるウェハーの数で償却する必要があるため、出力を遅くすることは、利益率を大幅に減少させることを意味します。
SMICは、おそらくマルチパターニングを使用して5ナノメートルノードに到達しようとしているのでしょうが、収率が非常に悪いのと同様に、スループットに影響を与えることになります。これらは本当に厄介な問題です。
これがDUV装置です。7ナノメートルまでは到達できましたが、5ナノメートルレベルではすぐに新しい光源が必要になります。そこでEUV（Extreme Ultraviolet：極端紫外線）リソグラフィが登場します。
これは永遠に約束され続けてきた技術です。TSMCのプロセスの10世代くらいにわたって、「今度こそEUVを使用する」と言われ続けてきましたが、いつも何か愚かな問題が発生して出荷できませんでした。ようやく私たちはEUVの世代に到達しました。
EUVの光源は13.5ナノメートルです。これは本当にクールです。この仕組みがいかにクレイジーなのか説明させてください。何らかの方法で13.5ナノメートルの光を作り出す必要があります。
ちなみに、私が共有している内容については、Asianometryというユーチューブチャンネルに素晴らしい解説があり、多くの詳細と素晴らしいイラストが含まれています。それをチェックすることをお勧めします。
昔、人々はスズ板、つまり平らなスズの板にレーザーを当てると、13.5ナノメートルの光を放出することを発見しました。13.5ナノメートルは超超紫外線で、非常に短い波長、高エネルギーの光です。しかし、問題は、光があらゆる方向に飛び散ってしまい、何らかの方法でそれを集める必要があることです。
そこで人々は「そうだ、凹面のスズ板を試してみよう」と考えました。凹面鏡の形状にスズ板を成形し、それに光を当てると、返ってくる光がより集中し、より制御されることを期待したのです。
しかし、その凹面スズ板に光を当てると、多くのスパッタリングが発生し、スズの気化が起こります。確かに13ナノメートルの光は生成されますが、その光は邪魔になる多くのスズ粒子に吸収されてしまいます。「ああ、困った。スズは使えない」となりました。
しかし、誰かがスズの液滴を使うというアイデアを思いつきました。EUV装置の内部で実際に起こることは、かなり常軌を逸しています。スズ液滴生成器があり、これは約100ミクロンの小さなスズ液滴を秒速約80メートルで発射します。これらの液滴がこの装置内を飛んでいきます。
スズ液滴が飛んでいく際、プリパルスレーザーが照射され、それに当たって平らにします。これにより、私たちが望む反射板、正しい形状の板になります。つまり、スズ液滴は最高速度で飛んでいき、レーザーパルス1で平らにされ、次にCO2レーザーからのメインレーザーパルスが来て、気化させてプラズマを放出させます。
小さなスズ液滴なので、13.5ナノメートルの光の邪魔になるほど気化する量はありません。そのため、実際に光を集めることができます。これは、別の弾丸で弾丸を2回連続で撃つようなものです。クレイジーな速度で飛んでいくスズ液滴に、プリパルスレーザーが当たって平らにし、次のレーザーがバーンと気化させ、EUV光が出てきます。
ちなみに、これの全体的な変換効率は約6%です。つまり、電力の大部分を失っているわけです。EUV光が出てきて、次に多くのミラーに当たり始めます。レンズはありません、ミラーだけです。なぜなら、13.5ナノメートルでは、基本的に空気自体を含めてすべてが吸収体となるからです。
さて、真空チャンバーが必要になりました。これはすべて真空中で行われています。なぜなら、EUVレーザーを作ることで人生が苦しくなったからです。空気が物を吸収してしまうので真空チャンバーが必要で、レンズは使えず、代わりにミラーを使う方法を見つけなければなりません。人生が苦しいからです。
ここにあるものはすべてミラーです。EUVシステムには約10個強のミラーがあり、基本的にレンズがすることを再現しようとしています。光学の背景から言うと、ミラーで光を集中させることは難しい作業です。
ミラーに穴を開けて光を大部分通過させ、できるだけ損失を少なくすることを含め、多くの興味深い工夫が行われています。とにかく大変ですが、とてもクールです。しかし大変です。
これらの10個か11個か12個のミラー（構成によって異なります）が、必死になってこの光を集め、引き寄せようとしています。すべては真空中で行われ、最終的にフォトマスクに当たります。フォトマスクも反射型でなければなりません。なぜなら、透過型の材料では光が吸収されてしまうからです。
これにより、非常に多くの厄介な問題が生じます。屈折要素、つまりレンズのような要素を持つことができません。光が通過して集中するようなものは一切使えず、常にすべてが反射型でなければなりません。これは大きな頭痛の種です。これらの機械の構築がはるかに困難で、はるかに高価になる大きな理由の一つです。
これがDUVとEUVの違いです。光の波長を変えるだけのように見えますが、それを行うと突然、これらのミラーでさえ約70%の反射率しかないことがわかります。つまり、約30%の光が吸収され、10個か11個の多層ミラーがあると、最終的には約2%の透過率しか得られません。
1枚目のミラーで30%、2枚目のミラーで30%と光が失われていくと、10枚のミラーを通過すると約2%の透過率になります。つまり、システムに投入するすべての電力に対して、本当に悪い変換効率しか得られないのです。
ちなみに、CO2レーザーは非常に大きいため、この作業を行っている部屋の床下に置かなければなりません。これ全体が巨大な頭痛の種であり、それがEUVの課題の一部です。
また、高NAのEUVもあります。これは次のステップで、基本的により大きなレンズを使用すること、つまりEUVのミラー構成を調整して、効果的により多くの光線を集め、より緊密に集中できるようにすることを含みます。
問題は、すべての半導体製造のセットアップが特定のサイズの光学系を前提としているため、それを変更すると多くのものを再構成する必要があることです。フォトマスク全体を一度に撮像することができず、実際に撮像できるフォトマスクのサイズ、つまりチップに刻印できる回路のサイズが約50%減少します。
そのため、同じチップを作りたい場合、2つのフォトマスクを組み合わせる必要があります。1つのきれいな回路を印刷する代わりに、2つを組み合わせる必要があります。これらの信じられないほど高解像度の回路を正確に並べる方法は、それ自体が巨大な頭痛の種であり、サプライチェーン全体に多くの興味深い影響を及ぼします。
話を終えますが、要点はEUVがDUVから大きな飛躍であり、現在、中国が完全に欠いているものだということです。輸出規制により、中国はEUV装置へのアクセスを完全に阻止されており、高NAのEUVへのアクセスはなおさらありません。彼らはDUVを使用し、マルチパターニングを通じてTSMCなどがEUVで実現できることに追いつこうとしています。
これらのテクノロジーがいかに狂気じみているか、精度の面でどれほど途方もないものかを理解すると、本当に驚くべきことだと思います。これは、なぜ私たちがこのエピソードを作っているかの大きな理由でもあり、輸出規制に関して言えば、具体的に何を規制しているのか、それが半導体の製造やチップにどのように関連しているのかについて掘り下げることができるかもしれません。
実際、これは素晴らしい質問です。人々は輸出規制を当たり前のように扱いますが、実際には何を輸出規制しているのでしょうか。サプライチェーンを通じて見ていくと、多くの異なる要素があり、より理解しやすくなります。
まず第一に、中国がこれらのEUVリソグラフィ装置を手に入れることを防ぐことです。彼らは国内でこれを製造することができず、Carl ZeissもASMLも持っていません。したがって、私たちは彼らを排除することができ、それによって独自のフォトリソグラフィ産業の発展を本当に難しくすることができます。
第二に、防衛の深層戦略として、TSMCの出力へのアクセスも遮断しようとすることができます。つまり、チップを設計してTSMCに製造を委託することを防ぐのです。現在、西側ではこれが行われています。例えばNVIDIAは新しいチップを設計し、その設計をTSMCに送り、TSMCがチップを製造し、おそらくパッケージングを行うか、あるいはパッケージングされて送り返されます。
しかし、中国がTSMCの出力にアクセスすることを防ごうとすることができます。歴史的に、中国はASMLが生産する機械と、それらの機械でTSMCが実現できることの両方にアクセスできました。彼らはただ設計をTSMCに送り、製造してもらうことができました。
しかし、ここ数年、輸出規制が段階的に導入され、最先端のチップへのアクセスが閉ざされ、さらにフォトリソグラフィへのアクセスも増々制限されてきました。現在、中国には1台のEUV装置もありません。
ちなみに、これらのEUV装置は常にメンテナンスが必要です。仮に中国にEUV装置があったとしても、使用できる戦略の一つは、修理クルー、つまりそれを稼働させ続けるために必要な20人ほどの人々を中国に派遣することを違法にすることです。おそらく、それによってその1台の機械の価値は低下するでしょう。
彼らはそれを逆エンジニアリングすることはできますが、製造はその魔法の一部です。そのため、これら2つの層は標準的なものとなっています。また、中国企業が完成品、例えばNVIDIAのGPUやサーバーを購入することを防ぐこともできます。
これらの3つの層が輸出規制措置の対象となっています。フォトリソグラフィ装置、TSMCのチップ製造出力、そしてNVIDIAなどの企業からの最終製品です。
ところで、興味深いのは、この分野で見られ始めていることです。NVIDIAは最先端のGPUの唯一の設計者でしたが、AnthropicやOpenAIなどの異なるAI企業が異なるアーキテクチャとトレーニング戦略に大きく賭け始めるにつれて、特殊なAIハードウェアへのニーズが進化し始めています。
Anthropicが使用するサーバーを見ると、OpenAIが検討しているものよりもGPUが多いサーバーセットを使用していることがわかります。OpenAIは2:1のGPU対CPU比率に向かい始めています。これには興味深い理由があり、OpenAIは検証器をより多く使用できると考え、思考の連鎖の特定の出力を検証するために検証器を活用したいと考えているためです。そのため、より多くのCPUが必要になります。
カスタムASIC、つまりこれらのフロンティアラボとともにカスタムチップの必要性が発展し始めており、OpenAIは独自のチップを開発しています。もちろん、Microsoftには独自のチップラインがあり、AmazonもAnthropicと共同で独自のチップラインを開発しています。
そのため、ますますオーダーメイドのハードウェアが見られるようになり、その結果、Broadcomのような企業が参入することになります。Broadcomは基本的に「あなたには特定の新しい種類のチップアーキテクチャが必要ですね。設計をお手伝いします。このチップに関してはあなたのNVIDIAになります」と言うことを専門としています。
これは、Googleが以前TPUを立ち上げた方法であり、現在はOpenAIが独自の新世代のカスタムチップを構築していると報告されている方法です。先週話したように、Broadcomはそのような企業とパートナーを組むことを好み、もちろんその設計をTSMCに送って、選択したノードで製造を行います。
これがざっとデザインのエコシステムです。もう一つ、面白いというか興味深い歴史的な詳細があります。TSMCはユニークな、あるいは会社を立ち上げたときにはユニークだった企業で、製造だけを提供する企業でした。
NVIDIAのような企業がチップを設計し、TSMCに製造を依頼することができ、TSMCはその設計を使って競合製品を作らないことを約束しました。TSMCの前は、Intelのような企業が製造技術を持っていました。Intelは、CPUなどのチップを販売することで利益を上げていました。
TSMCのコアビジネスは、他の人々から設計を受け取り、チップを製造し、それを届けることだけでした。それ以外のことは行いません。GPUなどは作りません。そのため、NVIDIAが彼らに依頼できたのです。
NVIDIAは潜在的な競合他社、例えばAMD（AMDが製造を行っているかどうかはわかりませんが）に依頼することはできませんでした。社内で設計を行い、TSMCに製造を委託することはできます。
あなたがよく指摘するように、TSMCには誰のためにチップを製造できるかの制限があります。競合他社を立ち上げたいと思っても、TSMCに電話して「チップを作ってもらえますか」とは簡単にはいきません。
NVIDIAの利点の一つは、非常に確立された関係を持っていることです。これはNVIDIAの初期にまで遡ります。彼らは非常に幸運にも早期に契約を結び、それが立ち上がりの原動力となりました。TSMCを製造パートナーとすることで、非常に深い密接な関係を持ち、それによって大きな優位性を持っています。
確かにその通りですね。TSMCは「ピュアプレイファウンドリ」として知られる最初の企業という点を指摘するのは素晴らしいですね。これが業界用語です。「ファブレス」、つまりファブレスチップデザイナーというのがもう一方の側面です。
NVIDIAは製造を行わず、設計を行います。彼らはファブレスデザイナーです。一方、TSMCはピュアプレイファウンドリです。この途方もない資本支出とリスクを考えると理にかなっています。両方に集中することはできません。
典型的な例として、NVIDIAがAMDに行けないという点について、AMDはファブレスですが、Intelはそうではありません。Intelは他の企業のために製造しようとしますが、それは常に緊張を生みます。
もちろん、NVIDIAはIntelを見て「いいえ、結構です」と言います。なぜなら、IntelはArrow lakeやAI最適化設計など、何であれ発表していますが、それらは結局、設計で私たちと競合することを意図しているからです。だから、もちろん製造ビジネスは与えません。TSMCのパートナーに行きます。
経済はこれらの物事を分離したがっているようで、ますますこれが標準的な状態になっているのが見られます。Global Foundriesはピュアプレイファブ、SMICはピュアプレイで、HuaweiとSMICのパートナーシップは、NVIDIAとTSMCのパートナーシップのようなものです。Huaweiが設計を行い、SMICが製造を行います。
これらすべては非常に深く複雑で、関係の網が信じられないほどあります。設計から実際のチップまでの工程数も、技術も複雑です。パッケージングについては触れましたが、マザーボードの構築は全く別の工程です。
とにかく、これは非常に魅力的で、この程度の詳細でまとめる必要があるかもしれません。しかし、ハードウェアとAIの歴史、そして現在の状況についてのかなり良い概要を提供し、なぜそれが方程式の中でこれほど重要な部分であり、誰が勝つか、誰がAIを支配するかの重要な側面であるのか、そしてなぜ誰もが巨大なデータセンターを構築し、10万台のGPUを手に入れようとしているのかを説明できたと思います。
より多くのチップとより多くのコンピューティングを通じてスケールアップする以外に方法はなく、それが現在行われているゲームなのです。
この一つのトピックについての非常に詳細なエピソードを楽しんでいただけたと思います。このような専門的なエピソードは久しぶりですが、私たちにとって非常に楽しいものでした。
YouTubeやSubstackでコメントを残すか、レビューを書いていただけると嬉しいです。このような専門的なエピソードをもっと聞きたいかどうか、お聞かせください。AIの予測について話したり、量子システムについて話したりと、話題は千個くらいあります。このような内容が面白いと思われた場合や、他に話してほしいことがありましたら、ぜひコメントをお願いします。

AI向けコンピューティングハードウェア - 過去、現在、そして未来

いいなと思ったら応援しよう！