
NVIDIAのCEOが語るロボット工学の未来!
7,912 文字
NVIDIAのCEOであるジェンセン・ファンは、今年のラスベガスで開催されたCESにて素晴らしいプレゼンテーションを行いました。このビデオでは、新しいGPUや新しいワールドファウンデーションモデルなど、彼が話したすべての内容を取り上げていきますが、私が本当に注目したいのは、そして今回のカンファレンス全体で最も重要だと思うのは、汎用ロボット工学に関する彼らの計画です。ジェンセン自身が言うように、汎用ロボット工学におけるChatGPTの瞬間は、すぐそこまで来ているのです。
まず、AIの発展を複数の段階で示すグラフが紹介されました。2012年には、アレックス・クリジェフスキー、イリヤ・サツケヴァー、ジェフリー・ヒントンによって設計された畳み込みニューラルネットワークアーキテクチャであるAlexNetの創造がありました。これが深層学習を本格的に開始させた瞬間でした。
その後、音声、テキスト、画像を理解できる知覚AIが登場し、続いて音声、テキスト、画像を生成できる生成AI、つまりChatGPTや大規模言語モデル(LLM)全般が登場しました。AIの次の段階またはレベルは、エージェントAIになります。
彼らはコーディングアシスタント、カスタマーサービスエージェント、患者ケアなどを挙げていますが、これは本当に表面的なものにすぎません。私たちは現在、エージェントAIの段階のまさに始まりにいると言えるでしょう。今年とこれから数年の間に、AIエージェントの影響を本当に目の当たりにすることになるでしょう。
しかし、NVIDIAが次に見据えているAIの方向性は、現在私たちがエージェントAIの段階にいることを考えると、フィジカルAI、つまり自動運転車や汎用ロボット工学、基本的に具現化されたAIです。後ほどビデオで見るように、彼らはこの分野で信じられないほどの進歩を遂げており、それも皆さんが予想していなかったかもしれない方法で行っています。
その前に、3つのスケーリング則について説明しているスライドがあります。まず、事前学習のスケーリングがあります。これは基本的に、これらのモデルを学習させるデータをスケールアップすることです。モデルが大きければ大きいほど、パラメータが多ければ多いほど、より良いパフォーマンスを発揮します。これは、GPT-2からGPT-4oまでの道のりを支えた主要なスケーリング則です。
しかし、事前学習のスケーリングの問題点は、データには限りがあり、AI企業はすでに利用可能なデータをほぼ使い果たしているということです。ジェンセンは毎日大量の新しいデータが生成されていることを指摘していますが、それでも厳しい制約が存在するということです。
2番目のスケーリング則は、強化学習、プロンプトエンジニアリング、ファインチューニングなどのテクニックを含む事後学習のスケーリングに関係します。これは、大規模なデータセットで事前学習を行った後、モデルが実際に学習し、改善する段階です。事後学習の間、出力に対するフィードバックを提供してスキルを洗練させ、より正確にします。
最後に、3番目のスケーリング則は、比較的新しいもので、テスト時のスケーリングまたは推論です。この新しいスケーリングパラダイムは、OpenAIの新しいo1やo3などの新しいモデルシリーズを生み出しました。
ここで、NVIDIAのCEOが私よりもずっと上手く説明している短いクリップをご紹介します。
「私たちは今、3番目のスケーリング則を手に入れました。この3番目のスケーリング則は、テスト時のスケーリングと呼ばれるものに関係しています。テスト時のスケーリングとは基本的に、AIが使用されている時、つまりAIを使用している時に、AIが異なるリソース配分を適用する能力を持つということです。パラメータを改善する代わりに、今は答えを生成するためにどれだけの計算を使うかを決定することに焦点を当てています。
推論はこれを考える一つの方法です。長時間の思考もこれを考える一つの方法です。直接的な推論やワンショットの回答の代わりに、問題について推論したり、問題を複数のステップに分解したり、複数のアイデアを生成したりするかもしれません。そして、AIシステムは、生成したアイデアのうちどれが最も良いものかを評価するかもしれません。問題を段階的に解決するかもしれません。このように、テスト時のスケーリングは非常に効果的であることが証明されています。」
さて、次に彼らが発表した製品についてお話ししましょう。まずは次世代のGPU、RTX Blackwell 50シリーズからです。
これらは大幅なパフォーマンス向上を実現しながら、なんと価格も安くなっています。ご覧の通り、RTX 5070は549ドルで販売され、前世代の最先端モデルであるRTX 4090と同等のパフォーマンスを提供します。5070の他にも、2,000ドルで販売されるRTX 5090など、いくつかのモデルがあります。これらは1月から入手可能になります。
これらの性能がどの程度のものなのかを示すために、新しいRTX 5090でレンダリングされているビデオゲームをご覧ください。これらの新しいGPUが驚くべき点は、ニューラルネットを使用してピクセルの約90%を生成しているということです。つまり、グラフィックスの大部分がAIによって生成されているのです。従来のレイトレーシングアルゴリズムは、ラフスケッチのような約10%のみをレンダリングし、その後、生成モデルが14パスでリアルタイムに残りの細部を埋めていきます。
これは文字通り、AIによってリアルタイムで生成されているビデオゲームであり、ご覧の通り、グラフィックスは非常に高品質です。このペースでいくと、単純により効率的で、パフォーマンスが急速に向上し続けているため、多くのビデオゲームがこの方法、つまり主にAIを使用してレンダリングされるようになることは明らかだと思います。
NVIDIAはまた、クラウドプロバイダー向けの新しいAIチップ、Grace Blackwell NVLink 72も発表しました。
これは基本的に巨大なAIチップです。ご覧の通り、72個のBlackwell GPUで構成されており、14テラバイトのメモリを搭載しています。しかし、驚くべきことに、メモリ帯域幅は1.2ペタバイト/秒です。これは基本的に、現在世界中で発生しているインターネットトラフィック全体に相当します。世界中のインターネットトラフィック全体がこれらのチップを通して処理されているのです。
そして、合計で1,030億個のトランジスタ、2,592個のCPUコア、大量のネットワーキング機能を備えています。これらは本当に信じがたい数字です。このようなものが可能だとは信じられません。コストは想像もつきませんが、私の推測では恐らく数百万ドルはするでしょう。コメント欄で、皆さんはこれがいくらだと思うか教えてください。
続いて、NVIDIAがこのカンファレンスで発表したもう一つの製品、消費者向けミニAIスーパーコンピュータについてお話ししましょう。
「人工知能は今や至る所にあります。研究者やスタートアップの研究所だけのものではありません。冒頭でお話ししたように、これは新しいコンピューティングの方法であり、新しいソフトウェアの方法です。今日、ツールとしてコンピュータを使用するすべてのソフトウェアエンジニア、すべてのエンジニア、すべてのクリエイティブアーティスト、すべての人々が、AIスーパーコンピュータを必要とするでしょう。
そこで私は、DGX-1がもっと小さくなればいいのにと思っていました。そして、皆さん、こちらがNVIDIAの最新のAIスーパーコンピュータです。」
これは、デスクに置けるクラウドコンピューティングプラットフォームです。PCやMac、基本的にどんなコンピュータとも接続でき、本質的に個人用コンピュータからスーパーコンピュータの膨大なパワーを利用することができます。また、複数のユニットを積み重ねてパフォーマンスを倍増させることもできます。
ここから本当にクレイジーになってきます。すでに見たものがかなりクールだと思ったかもしれませんが、フィジカルAIについて話す次のパートは絶対に衝撃的です。これから見せるクリップは少し長いですが、信じてください。彼は文字通りAIの未来について説明しているのです。
「フィジカルAIを想像してみてください。大規模言語モデルでは、左側にコンテキストとプロンプトを与え、一度に一つずつトークンを生成して出力を作り出します。基本的にそれが仕組みです。素晴らしいのは、この中間のモデルが非常に大きく、数十億のパラメータを持っているということです。コンテキスト長も信じられないほど大きいです。なぜなら、PDFを読み込むことを決定するかもしれないからです。私の場合、質問をする前に複数のPDFを読み込むかもしれません。
これらのPDFはトークンに変換されます。トランスフォーマーの基本的な注意特性は、すべてのトークンが他のすべてのトークンとの関係性と関連性を見出すことです。数十万のトークンがあり、計算負荷は二次関数的に増加します。すべてのパラメータ、すべての入力シーケンスを通して、トランスフォーマーのすべての層を通して処理し、一つのトークンを生成します。これがBlackwellが必要だった理由です。
そして、現在のトークンが完了すると、次のトークンが生成されます。現在のトークンを入力シーケンスに入れ、それ全体を取って次のトークンを生成します。一度に一つずつ行います。これがトランスフォーマーモデルです。これが計算的に非常に効果的である理由です。
では、PDFの代わりに周囲の環境だったら?プロンプトの質問の代わりに、『あそこに行ってその箱を取ってきて』というリクエストだったら?そしてテキストとして生成されるトークンの代わりに、アクションのトークンを生成したら?
私が今説明したのは、ロボット工学の未来にとって非常に理にかなったことです。そしてその技術は、すぐそこまで来ています。しかし、私たちがする必要があるのは、効果的に言語モデルであるGPTとは異なる、世界モデルを作ることです。
このワールドモデルは、世界の言語を理解する必要があります。重力、摩擦、慣性などの物理的な力学を理解する必要があります。幾何学的および空間的な関係を理解する必要があります。因果関係を理解する必要があります。何かを落とすと地面に落ちる、突くと倒れる、そしてオブジェクトの永続性も理解する必要があります。キッチンカウンターの上でボールを転がし、反対側に行ったとき、ボールは別の量子宇宙に消えたわけではなく、まだそこにあります。
これらすべての種類の理解、直感的な理解は、今日のほとんどのモデルが非常に苦手としているものです。そこで、私たちはワールドファウンデーションモデルを作る必要があります。今日、私たちは非常に大きなことを発表します。物理的な世界を理解するために設計された、NVIDIAのコスモス、ワールドファウンデーションモデルを発表します。これを本当に理解する唯一の方法は、実際に見ることです。」
この素晴らしい導入の後に見るクリップの前に、彼が今言ったことを簡単に繰り返しておきたいと思います。人間の言語を本質的に理解し模倣する大規模言語モデル(LLM)があるように、次に私たちが手に入れるのは、WFMまたはワールドファウンデーションモデルです。これらは現実世界を理解するモデルです。LLMがテキストと画像のトークンを出力する一方で、WLMはアクショントークンを出力します。
例えば、ChatGPTに物語を書いてもらうことはできますが、冷蔵庫に行ってビールを取ってきてもらうことはできません。しかし、ヒューマノイドロボットに組み込まれたWLMなら可能です。ジェンセンも言ったように、これを説明する唯一の方法は実際に見せることです。
[音楽]
[拍手]
物理AIモデルに予知とマルチバース・シミュレーションの力をもたらし、モデルが正しい道筋を選択するのを助けるために、あらゆる可能な未来を生成します。世界の開発者エコシステムと協力して、NVIDIAは次世代の物理AIを推進しています。
これがどれほど凄まじいことか、ちょっと考えてみましょう。これは文字通り、世界のシミュレーションを生成するモデルなのです。シミュレーション仮説、つまり現実がシミュレートされた現実であるという考えは、ますます確からしく見えてきています。
これらすべての最終的な進展を考えてみると、シミュレーションはますます良くなり、よりリアルになっていき、最終的には世界全体のシミュレーションを作れるようになる可能性が高いでしょう。明らかにこれはまだ先のことですが、考えさせられます。これは本当に世界シミュレーションが作られた最初の時なのか、それとも私たちは単にシミュレーションの中で歴史の流れを再生しているだけで、実際に何が起きているのか全く気付いていないのでしょうか。
より短期的に考えると、WFMが非常に有用である理由は数多くあります。実世界よりもはるかに速くシミュレーション内で合成データを収集し、ヒューマノイドロボットの訓練に使用することができます。後ほど詳しく見ていきますが、自動運転車の訓練にも使用できます。
また、このクリップで見られるように、企業は倉庫のデジタルツインを作成して、実際に実世界でテストすることなく、複数のプロセスやシナリオをシミュレートし、最も効率的な方法を見つけることができます。これは倉庫だけでなく、基本的にあらゆるものに適用できます。
最後にジェンセンが触れた分野は、汎用ロボット工学、特に自動運転車です。個人的に、自動運転車は私が本当に興味を持っている分野です。必然的にこれは普及し、これまでに見たことのない最大の産業の一つになると思います。
自動運転車には、輸送の危険性を大幅に低減しながら、同時により安価で効率的にする可能性があります。誰がそれを望まないでしょうか。タクシー運転手、Uber運転手、トラック運転手などは望まないかもしれませんが、結局のところ、それは避けられません。
NVIDIAは現在、ほぼすべての主要な自動車メーカーと提携しており、この業界は恐らく最初の数兆ドル規模のロボット工学産業になる可能性が高いと話しています。しかし、本当に魅力的なのは、NVIDIAが先ほど見たコスモスとOmniverseによって生成された合成データを使用して、実際にこれらの自動運転車を訓練している方法です。見てみましょう。
「さて、私は自動運転車の文脈でOmniverseとコスモスをどのように使用するかをお見せしたいと言いました。今日は、道路を走る車の大量のビデオをお見せする代わりに - そういったものもお見せしますが - AIを使って自動的にデジタルツインを再構築し、その機能を使って将来のAIモデルを訓練する方法をお見せしたいと思います。」
自動運転車革命がやってきました。すべてのロボットと同様に、自動運転車の構築には3つのコンピュータが必要です。AIモデルを訓練するNVIDIA DGX、テスト走行と合成データの生成を行うOmniverse、そして車載スーパーコンピュータのDrive AGXです。
安全な自動運転車を構築するには、エッジケースに対応する必要がありますが、実世界のデータには限りがあります。そのため、訓練には合成データが不可欠です。NVIDIA Omniverseが提供する自動運転車データファクトリーは、AIモデルとコスモスを活用して、訓練データを数桁増幅する合成運転シナリオを生成します。
まず、OmniMapはマップと地理空間データを融合して、運転可能な3D環境を構築します。運転シナリオのバリエーションは、リプレイドライブログまたはAIトラフィックジェネレータから生成できます。
次に、ニューラル再構築エンジンは自動運転車のセンサーログを使用して、高精細な4Dシミュレーション環境を作成します。これは以前の運転を3Dで再生し、訓練データを増幅するためのシナリオバリエーションを生成します。
最後に、Edify 3DSは既存のアセットライブラリを自動的に検索するか、シミュレーション対応のシーンを作成するための新しいアセットセットを生成します。
Omniverseのシナリオは、コスモスを条件付けして、写実的なデータを大量に生成し、シミュレーションと現実のギャップを縮めるために使用されます。そして、テキストプロンプトを使用して、運転シナリオの無限に近いバリエーションを生成します。
コスモスのニュートロンビデオ検索により、記録された運転と組み合わされた大規模な合成データセットをキュレーションして、モデルを訓練することができます。NVIDIAのAIデータファクトリーは、数百回の運転を数十億マイルの実効的な走行距離にスケールアップし、安全で高度な自動運転の基準を設定します。
つまり、自動運転車は文字通り、エキスパートの人間運転手のようになり、実際にはそれ以上になるでしょう。なぜなら、複数の人生分の運転シナリオで訓練されるからです。
ビデオを終える前に、NVIDIAが狙っている3つの主要なロボット工学分野を簡単に紹介したクリップをお見せしたいと思います。これらは最も可能性のある3つの主要なロボット工学分野であり、私たちがまもなく目にすることになるロボットの種類です。
「世界には3つのロボット、グリーンフィールドの適応を必要としない3つのロボットがあります。もし私たちがこれらの素晴らしいロボットを構築できれば、私たち自身が作り上げた世界にそのまま展開できます。
これら3つのロボットとは、まず第一に、エージェントロボットとエージェントAIです。なぜなら、それらは情報労働者なので、私たちのオフィスにあるコンピュータに適応できれば素晴らしいことになります。第二に自動運転車です。その理由は、私たちが100年以上かけて道路と都市を作り上げてきたからです。そして第三にヒューマノイドロボットです。
もし私たちがこれら3つを解決する技術を持っていれば、これは世界が今まで見たことのない最大の技術産業となるでしょう。そして私たちは、ロボット工学の時代がすぐそこまで来ていると考えています。」
全体として、NVIDIAからの素晴らしいプレゼンテーションでした。このまとめを楽しんでいただけたと思います。いつも通り視聴ありがとうございます。そして私のPatreonもチェックすることを忘れないでください。実は今始めたばかりです。週次と月次のAIニュースまとめや、独占的なモデルテスト、その他のコンテンツを投稿する予定です。
また、コミュニティの他のメンバーや私自身とチャットするのにも最適な場所です。すでに何人かの方々とそこでお話ししています。興味があればぜひチェックしてみてください。リンクは説明欄とチャンネルのバイオにあります。
今日はこれで以上です。繰り返しになりますが、視聴ありがとうございました。今後もこのようなAIニュースを見逃したくない方は、ぜひ購読ボタンを押してください。