見出し画像

NVIDIA CEOによる基調講演ライブストリーム | CES 2025

28,614 文字

CESは次に何が来るかということだけでなく、何が可能かということを示すものです。そしてテクノロジーと人類が交差するとき、答えは無限大です。なぜなら、テクノロジーは課題を解決するだけでなく、それらを機会へと変えるからです。テクノロジーは、より賢く動き、より健康に生活し、これまで考えもしなかった方法で世界を体験することを可能にします。
私たちはただのテクノロジーイベントのためにここにいるのではありません。私たちは、共に結びつき、解決し、発見するためにここにいるのです。テクノロジーは単に進歩しているだけではなく、私たちを結び付け、自律的な未来へと近づけ、より良いケアへとつなげ、生活をよりつながりのある、よりダイナミックな、よりヒューマンなものにしています。
今日の課題には大胆な解決策が必要であり、CESはそれらが形を成し始める場所です。持続可能性におけるブレークスルー、成長する世界を養うための進歩。今週は単なるブレークスルーの舞台ではなく、発見の火種なのです。すべての画面、すべてのピクセル、ここで見るすべてのテクノロジーが、人間の創意工夫とテクノロジーの力が出会う extraordinary な可能性を示しています。
さあ、私たちをつなぐもの、最大の課題を解決する力を持つもの、そしてまだ発見されていない無限の可能性を持つものを祝う時が始まります。今、この場所で、世界が注目しています。では、飛び込んでいきましょう。
皆様、CES 2025へようこそ。私はゲイリー・シャピロ、コンシューマー・テクノロジー協会のCEO兼副会長で、CESのプロデューサーです。世界で最も重要な企業の1つであるNVIDIAの基調講演でこのショーを開始できることを大変嬉しく思います。
NVIDIAはCESで私たちが祝福する最先端のイノベーションを体現しており、創業者兼CEOのジェンセン・ファンは、アイデア、テクノロジー、信念の力でイノベーションを推進し、私たちの産業と社会を再形成する真のビジョナリーです。
前回ジェンセンがCTAのイベントで話したときに、もう少し注意深く聞いていれば、すでに引退できていたかもしれません。しかし、過去30年間で彼はNVIDIAを、ヘルスケアから自動車、エンターテインメントまで、世界中のあらゆる産業で変化を推進する原動力として確立してきました。
今日、NVIDIAはAIとアクセラレーテッド・コンピューティングの分野でブレークスルーを開拓しており、それはほぼすべての人とすべてのビジネスに影響を与えています。ファンのリーダーシップのおかげで、NVIDIAのイノベーションは、高度なチャットボット、ソフトウェア定義の車両向けロボット、巨大な仮想世界、超同期化された工場フロアなどを可能にしています。
ファンはフォーチュン誌とエコノミスト誌により世界最高のCEOに選ばれ、タイム誌の世界で最も影響力のある100人にも選ばれました。しかし、この部屋にいる私たち全員と同様に、彼の成功は運命づけられていたわけではありません。ジェンセンはデニーズで皿洗いとバスボーイとして働き始めました。だから将来のバスボーイには優しくしてください。彼が言うには、そこで学んだ勤勉さ、謙虚さ、おもてなしの精神という教訓が、NVIDIAの初期の課題を乗り越える際の信念を持ち続けるのに役立ったそうです。
数分後、NVIDIA創業者兼CEOのジェンセン・ファンから、未来への揺るぎないビジョンと私たちがどこに向かっているのかについてお話しいただきます。ご期待ください。そして素晴らしいCESをお楽しみください。
[この時点でジェンセン・ファンが登場し、オープニング映像が流れる]
これが知性が作られる方法です。新しい種類の工場、AIの構成要素であるトークンのジェネレーター。トークンは新しいフロンティアを開きました。無限の可能性が生まれる驚くべき世界への最初の一歩です。
トークンは言葉を知識に変え、画像に命を吹き込みます。アイデアをビデオに変換し、あらゆる環境を安全に航行するのを助けます。トークンはロボットにマスターのように動くことを教え、私たちの勝利を祝う新しい方法を生み出します。
「マティーニをお願いします」
「かしこまりました」
「ありがとう、アダム」
そして最も必要なときに安心を与えてくれます。
「こんにちは、モロカ」
「こんにちは、アナ。また会えて嬉しいわ」
「こんにちは、エマ。今日は採血をさせてもらいますね。大丈夫、私がずっとそばにいますから」
トークンは数字に意味を持たせ、私たちの周りの世界をよりよく理解するのを助けます。私たちを取り巻く危険を予測し、内なる脅威への治療法を見つけます。トークンは私たちのビジョンを実現し、失われたものを取り戻すことができます。
「ザカリー、私の声が戻ったのよ」
トークンは私たちを一歩ずつ、そして共に大きな飛躍を遂げながら前進させてくれます。そしてここが、すべての始まりの場所です。
ステージへ、NVIDIA創業者兼CEOのジェンセン・ファンをお迎えします。
「ラスベガスのCESへようこそ。私のジャケットはお気に入りですか?ゲイリー・シャピロとは違う方向に行ってみました。ここはラスベガスですからね。もしこれがうまくいかなかったら、もし皆さんが反対するなら...まあ、慣れていただくしかありませんね。1時間もすれば良い感じになると思います。
さて、NVIDIAへようこそ。実は皆さんはNVIDIAのデジタルツインの中にいます。ここで聞こえるすべてはAIによって生成されています。
これは驚くべき旅路でした。驚くべき1年でした。1993年にNV1から始まりました。私たちは通常のコンピュータにはできないことができるコンピュータを作りたいと考え、NV1によってPCでゲーム機能を持つことが可能になりました。私たちのプログラミングアーキテクチャはUDA(文字cが抜けています。それは後で追加されました)と呼ばれ、統合デバイスアーキテクチャの略です。UDAの最初の開発者であり、UDA上で動作した最初のアプリケーションはセガのバーチャファイターでした。
6年後の1999年に、プログラマブルGPUを発明しました。これによって20年以上にわたるGPUと呼ばれる驚くべきプロセッサの発展が始まりました。これによって現代のコンピューターグラフィックスが可能になり、今では30年後にセガのバーチャファイターは完全にシネマティックなものになっています。これが新しいバーチャファイタープロジェクトです。本当に楽しみで仕方ありません。
その6年後、1999年の6年後に、私たちはCUDAを発明しました。これは私たちのGPUのプログラマビリティを、それから恩恵を受けることができる豊富なアルゴリズムに説明または表現するためでした。CUDAは当初、説明が難しく、何年もかかりました。実際、約6年かかりました。
somehow6年後、2012年頃にアレックス・クリジェフスキー、イリヤ・スツケバー、ジェフ・ヒントンがCUDAを発見し、それを使ってAlexNetを処理しました。そしてそれ以降の歴史はご存知の通りです。AIは信じられないペースで進歩を続けています。
知覚AIから始まり、私たちは画像、言葉、音を理解できるようになりました。生成AIへと進み、画像、テキスト、音を生成できるようになりました。そして今は遺伝的AI、つまり知覚、推論、計画、行動ができるAIへ。そして次のフェーズは物理的AI、その一部について今夜お話しします。
2012年、そして魔法のように2018年に信じられないことが起こりました。GoogleのTransformerがBERTとしてリリースされ、AIの世界は本当に飛躍的な発展を遂げました。ご存知の通り、Transformerは人工知能の景色を完全に変えました。実際、コンピューティング全体の景色を完全に変えました。
私たちは適切に認識しました。AIは単なる新しいアプリケーションや新しいビジネスチャンスではなく、Transformerによって可能になった機械学習は、コンピューティングの仕組みを根本的に変えようとしているということを。そして今日、コンピューティングはあらゆる層で革命を起こしています。
CPUで実行される命令を手でコーディングして人間が使用するソフトウェアツールを作成する方法から、今では機械学習がニューラルネットワークを作成・最適化し、GPUで処理して人工知能を生成します。技術スタックのあらゆる層が完全に変更されました。わずか12年での信じられない変革です。
私たちは今、ほぼあらゆるモダリティの情報を理解することができます。テキストや画像、音などを見てきたことは確かですが、それだけでなく、アミノ酸を理解し、物理を理解することができます。私たちはそれらを理解し、翻訳し、生成することができます。アプリケーションは本当に無限です。
実際、あなたが見るほぼすべてのAIアプリケーションについて、入力として学習したモダリティは何か、どのモダリティの情報に翻訳したのか、どのモダリティの情報を生成しているのか、という3つの基本的な質問をすれば、ほぼすべてのアプリケーションを推測することができます。そして、AIドリブン、AIネイティブなアプリケーションを次々と見ていくと、その中核にはこの基本的な概念があります。
機械学習は、すべてのアプリケーションの構築方法、コンピューティングの実行方法、そしてその先の可能性を変えました。GeForceは、多くの意味で、AIがGeForceを築いた家です。GeForceはAIを大衆に届け、そして今、AIがGeForceに戻ってきています。
AIなしではできないことがたくさんあります。その一部をお見せしましょう。
[ここでリアルタイムのコンピューターグラフィックスのデモが行われる]
これはリアルタイムのコンピューターグラフィックスでした。コンピューターグラフィックスの研究者も、コンピューターサイエンティストも、この時点でこのようなすべてのピクセルのレイトレーシングが可能だとは言わなかったでしょう。レイトレーシングは光のシミュレーションです。お見せした幾何学的な量は絶対に途方もないものでした。人工知能なしでは不可能だったでしょう。
私たちは2つの基本的なことを行いました。もちろん、プログラマブルシェーディングとレイトレース加速を使用して、信じられないほど美しいピクセルを生成しました。そして人工知能にそのピクセルによって条件付けられ、制御されることで、他の多くのピクセルを生成させました。
空間的に他のピクセルを生成できるだけでなく、色がどうあるべきかを認識しているため、NVIDIAのスーパーコンピューターでトレーニングされており、GPUで実行されているニューラルネットワークは、私たちがレンダリングしなかったピクセルを推論して予測することができます。
それだけでなく、DLSSと呼ばれる最新世代のDLSSは、フレームを超えて生成することもできます。計算した1フレームごとに、追加で3フレームを予測して生成することができます。お見せしたものは4フレームでした。1フレームをレンダリングして3フレームを生成するからです。
フルHD 4Kで4フレームを表示すると言えば、約3,300万ピクセルです。その3,300万ピクセルのうち、私たちが計算したのはわずか200万ピクセルです。プログラマブルシェーダーとレイトレーシングエンジンを使用して200万ピクセルを計算し、AIに他の3,300万ピクセルをすべて予測させることができるのは、絶対的な奇跡です。
その結果、AIは計算量が非常に少ないため、信じられないほど高いパフォーマンスでレンダリングすることができます。もちろん、それを生成するためには膨大な量のトレーニングが必要ですが、一度トレーニングすれば、生成は非常に効率的です。これが人工知能の信じられない能力の一つであり、だからこそ多くの素晴らしいことが起こっているのです。
私たちはGeForceを使って人工知能を実現し、そして今、人工知能がGeForceを革新しています。本日、私たちは次世代のRTX Blackwellファミリーを発表します。
[ここで新しいGeForce RTX 50シリーズのBlackwellアーキテクチャの紹介映像が流れる]
こちらが新しいGeForce RTX 50シリーズBlackwellアーキテクチャです。このGPUは本当に化け物です。920億トランジスタ、4,000 TOPS、4ペタフロップスのAI性能で、前世代のAdaの3倍です。そして先ほどお見せしたようなピクセルを生成するために、これらすべてが必要なのです。
380レイトレーシングテラフロップスがあり、計算する必要のあるピクセルに対して可能な限り美しい画像を計算することができます。そして当然、125シェーダーテラフロップスがあります。実際には同時実行シェーダーテラフロップスもあり、同等の性能を持つインテジャーユニットもあります。2つのデュアルシェーダーで、1つは浮動小数点用、もう1つはインテジャー用です。
マイクロンのG7メモリは1.8テラバイト/秒で、前世代の2倍の性能です。そして今、AIワークロードをコンピューターグラフィックスワークロードと統合する能力を持っています。この世代の素晴らしいことの1つは、プログラマブルシェーダーが今やニューラルネットワークを処理できるようになったことです。
シェーダーはこれらのニューラルネットワークを搭載できるようになり、その結果、私たちはニューロテクスチャー圧縮とニューロマテリアルシェーディングを発明しました。その結果、AIを使用してテクスチャーを学習し、圧縮アルゴリズムを学習することによってのみ可能な、驚くほど美しい画像が得られます。
さて、これが新しいRTX Blackwell 5090です。機械設計さえも奇跡です。これを見てください。2つのファンがあります。このグラフィックスカード全体が1つの巨大なファンです。つまり、グラフィックスカードはこれほど大きいのかという疑問が生じますね。電圧レギュレータの設計は最先端で、信じられないデザインです。エンジニアリングチームは素晴らしい仕事をしました。
これらが性能と仕様です。では、比較してみましょう。これがRTX 4090です。多くの皆さんが持っていることは知っています。1,599ドルですね。これは可能な限り最高の投資の1つです。1,599ドルで10,000ドルのPCエンターテインメントコマンドセンターに持ち帰ることができます。違いますか?恥ずかしがることはありません。液冷で、あちこちに派手なライトがついていて、外出するときには鍵をかけます。これが現代のホームシアターなのです。完全に理にかなっています。
そして今、1,599ドルで、それをアップグレードして、生きている限り最高のターボチャージをかけることができます。今や、Blackwellファミリーを使えば、RTX 5070で4090の性能を549ドルで実現できます。これは人工知能なしでは不可能です。4テラオプスのAIテンソルコアなしでは不可能です。G7メモリなしでは不可能です。
つまり、5070で4090の性能を549ドルで。そしてこれが全シリーズです。5070から5090まで。5090は4090の2倍の性能です。もちろん、1月から大規模な生産を開始します。これは信じられないことですが、これらの巨大な性能のGPUをノートパソコンに搭載することに成功しました。これは1,299ドルの570ノートパソコンです。この5070ノートパソコンは4090の性能を持っています。
ここに1台あるはずです。お見せしましょう。これがこちらです。ポケットはこれくらいしかないんです、皆さん。ジャニーン、ポール。このような信じられないグラフィックスカードをここに入れ、それを縮小して、そこに収めることができるなんて、意味が分かりますか?
人工知能なしではこれは不可能です。その理由は、私たちはテンソルコアを使用して、ほとんどのピクセルを生成しているからです。必要なピクセルだけをレイトレースし、他のすべてのピクセルを人工知能を使用して生成します。その結果、エネルギー効率は信じられないほど高くなっています。
コンピューターグラフィックスの未来はニューラル・レンダリングです。人工知能とコンピューターグラフィックスの融合です。本当に素晴らしいのは...はい、ありがとう。これは予想以上にキネティックな基調講演になっていますね。本当に素晴らしいのは、ここに搭載するGPUファミリーです。
1590、1590をスリムなノートパソコンに搭載します。先ほどのノートパソコンは14.9mmでした。5080、5070 TI、5070を搭載します。皆様、RTX Blackwellファミリーの登場です!
GeForceはAIを世界にもたらし、AIを民主化しました。そして今、AIがGeForceに革命をもたらしました。では、人工知能について話しましょう。別のNVIDIAのオフィスに移動しましょう。これは文字通り私たちのオフィスです。これは文字通りNVIDIAの本社です。
では、AIについて話しましょう。業界は人工知能のスケーリングを追求し、競争しています。スケーリング則は強力なモデルです。これは研究者や業界によって数世代にわたって観察され、実証された経験則です。スケーリング則は、より多くのデータ(トレーニングデータ)を持ち、より大きなモデルを持ち、より多くの計算を適用するほど、モデルはより効果的に、より能力を持つようになるということを示しています。
そしてスケーリング則は続いています。本当に驚くべきことは、インターネットが毎年前年の2倍のデータを生成していることです。今後数年で、人類は人類の始まりから今までに生成したすべてのデータよりも多くのデータを生成すると思います。そして私たちは依然として巨大な量のデータを生成し続けており、それはよりマルチモーダルになっています。ビデオ、画像、音声、これらすべてのデータはAIの基本的な知識、基礎的な知識をトレーニングするために使用することができます。
しかし、実際には他に2つのスケーリング則が出現しています。それは直感的にも理解できます。2つ目のスケーリング則は、事後トレーニングスケーリング則です。事後トレーニングスケーリング則は、強化学習や人間からのフィードバックなどのテクニックを使用します。基本的に、AIは人間のクエリに基づいて回答を生成し、人間がフィードバックを与えます。
もちろん、それよりもずっと複雑ですが、その強化学習システムは、かなりの数の高品質なプロンプトを使用して、AIにスキルを洗練させます。特定のドメインに対してスキルを微調整し、数学の問題を解くことや推論がより上手くなるかもしれません。本質的には、メンターやコーチからフィードバックを得るようなものです。
学校を卒業した後、テストを受け、フィードバックを得て、自分を向上させるようなものです。私たちはまた、AIフィードバックの強化学習と合成データ生成も持っています。これらのテクニックは、言ってみれば自己練習のようなものです。特定の問題の答えを知っていて、正解するまで続けて試すようなものです。
そしてAIは、検証可能で答えが理解できる、非常に複雑で難しい問題に直面することができます。定理の証明や幾何学の問題を解くなどです。これらの問題によってAIは回答を生成し、強化学習を使用して自己改善の方法を学習します。これが事後トレーニングと呼ばれるもので、事後トレーニングには膨大な量の計算が必要ですが、最終的には信じられないモデルを生成します。
私たちは今、3つ目のスケーリング則を持っています。この3つ目のスケーリング則は、テスト時スケーリングと呼ばれるものに関係しています。テスト時スケーリングは基本的に、AIが使用されている時、つまりAIを使用している時に、AIがパラメータを改善するのではなく、生成したい回答に使用する計算量を決定することに焦点を当てる能力を持つということです。
推論はこれについて考える一つの方法です。長時間の思考は、これについて考えるもう一つの方法です。直接的な推論やワンショットの回答の代わりに、それについて推論し、問題を複数のステップに分解し、複数のアイデアを生成し、生成したアイデアのどれが最も良いかをAIシステムが評価するかもしれません。問題をステップバイステップで解くかもしれません。そして今、テスト時スケーリングは信じられるほど効果的であることが証明されています。
あなたはこの一連のテクノロジーを見ており、これらのすべてのスケーリング則は、ChatGPTからo1、o3、そして今はGemini Proまでの信じられない成果を見る中で出現しています。これらのシステムはすべて、事前トレーニングから事後トレーニング、そしてテスト時スケーリングへと、一歩一歩この旅を進んでいます。
もちろん、必要な計算量は信じられないほどです。実際、私たちは社会がより多くの、より良い知性を生成するために計算量をスケールアップする能力を持つことを望んでいます。知性はもちろん、私たちが持つ最も価値のある資産であり、多くの困難な問題を解決するために適用することができます。
そしてスケーリング則は、このBlackwellと呼ばれる信じられないチップに対する巨大な需要を推進しています。では、Blackwellを見てみましょう。Blackwellは本格的な生産に入っています。見た目は信じられないものです。
まず、すべてのクラウドサービスプロバイダーが現在システムを稼働させています。約15の、申し訳ありません、15のコンピューターメーカーからのシステムがここにあります。約200の異なるSKU、200の異なる構成で製造されています。液冷式、空冷式、x86、NVIDIA Grace CPU版、NVLink 36×2、NVLink 72×1など、様々なタイプのシステムがあり、世界中のほぼすべてのデータセンターに対応できます。
これらのシステムは現在、45の工場で製造されています。これは人工知能がいかに浸透しているか、そしてこの新しいコンピューティングモデルに業界がどれだけ飛びついているかを物語っています。私たちがこれほど強力に推進している理由は、より多くの計算が必要だからです。それは非常に明確です。
ジャニーン、私は...暗い場所に手を入れるのは良くないことは分かっています。ちょっと待ってください。
[ここで何かのデモンストレーションが行われる]
待ってください、待ってください。私は値する存在だと思っていましたが、明らかにあなたはそう思っていないようですね。
まあ、これは私のショー&テルです。このNVLinkシステム、これがここにあるGB200 NVLink 72です。これは1.2トン、約60万個の部品で、20台の車に相当します。120キロワットです。背後にすべてのGPUを接続するスパインがあり、2マイルの銅線、5,000本のケーブルがあります。これは世界中の45の工場で製造されています。私たちはこれらを組み立て、液冷化し、テストし、分解して、データセンターに部品を出荷します。1.2トンもあるため、データセンターの外で再組み立てしてから設置します。
製造は信じられないほど大変ですが、これらすべての目的は、スケーリング則が計算をそれほど強力に推進しているため、Blackwellが前世代と比べてワット当たりの性能を4倍向上させるということです。ワット当たりの性能が4倍、ドル当たりの性能が3倍です。これは基本的に、1世代でこれらのモデルのトレーニングコストを3分の1に削減できること、あるいはモデルのサイズを3倍に増やしても同じコストで済むことを意味します。
しかし重要なのは、これらがトークンを生成しているということです。私たちがChatGPTやGeminiを使用したり、将来的には携帯電話を使用したりする際に、これらのアプリケーションのほぼすべてがこれらのAIトークンを消費することになります。そしてこれらのAIトークンは、これらのシステムによって生成されています。すべてのデータセンターは電力によって制限されています。そしてBlackwellのワット当たりの性能が前世代の4倍であれば、データセンターで生成できる収益、生成できるビジネスの量は4倍に増加します。
このAIファクトリーシステムは、今日では本当に工場なのです。これらすべての目的は、1つの巨大なチップを作ることができるようにするためです。私たちが必要とする計算量は本当に信じられないほどです。これは基本的に1つの巨大なチップです。もしこれを1つのチップとして作る必要があったとすれば...ほら、見てください。ここのディスコライトはクールでしょう?
もしこれを1つのチップとして作る必要があったとすれば、明らかにウェハーのサイズになるでしょう。しかしこれには歩留まりの影響は含まれていません。おそらく3〜4倍のサイズが必要になるでしょう。しかし基本的に、ここにあるのは72個のBlackwell GPU、つまり144個のダイです。
このチップ1つで1.4エクサフロップスです。世界最大のスーパーコンピュータ、最速のスーパーコンピュータは、このルーム全体のスーパーコンピュータでようやく最近エクサフロップスを達成しました。これは1.4エクサフロップスのAI浮動小数点演算性能です。14テラバイトのメモリを持っています。しかし驚くべきことは、メモリ帯域幅が1.2ペタバイト/秒ということです。これは基本的に、今このときに発生している全世界のインターネットトラフィック全体です。全世界のインターネットトラフィックがこれらのチップ間で処理されています。
そして私たちは合計1,030億トランジスタ、2,592個のCPUコア、多数のネットワーキングを持っています。これができたらいいのですが、できそうにありません。これらがBlackwellで、これらがコネクトXネットワーキングチップで、これらがNVLinkです。そしてNVLinkスパインについて説明しようとしていますが、それは不可能です。これらはすべてのHPMメモリで、14テラバイトのHPMメモリです。
これが私たちが目指していることです。これが奇跡です。これがBlackwellシステム、Blackwellダイの奇跡です。ここにあるのは、世界で今まで作られた中で最大の単一チップですが、その奇跡はそれだけではありません。これがGrace Blackwellシステムです。
これらすべての目的は、もちろん...ありがとう、ボーイ。椅子に座れますか?マイケロブ・ウルトラをいただけますか?マイケロブ・ウルトラ・スタジアムにいるのに、GPUを持っていないのはどういうことですか?
私たちは膨大な量の計算を必要としています。なぜなら、より大きなモデルをトレーニングしたいからです。これらの推論は、以前は1回の推論でしたが、将来的にはAIは自分自身と対話し、考え、内部で反省処理を行うことになります。
今日、トークンが1秒間に20〜30トークンの速度で生成されている限り、それは基本的に誰でも読める速度です。しかし将来的には、そして現在のGPo1、新しいGemini Proと新しいGPのo1o3モデルでは、彼らは自分自身と対話し、反省し、考えています。想像できるように、トークンを取り込むことができる速度は信じられないほど高くなっています。
そのため、トークンレート、トークン生成レートを大幅に上げる必要があり、同時にコストを大幅に下げる必要があります。これにより、サービス品質が極めて高く、顧客へのコストを低く抑え続けることができ、AIは引き続きスケールすることができます。これが、私たちがNVLinkを作成した基本的な目的です。
エンタープライズの世界で起きている最も重要なことの1つは、エージェンティックAIです。エージェンティックAIは基本的に、テスト時スケーリングの完璧な例です。AIはモデルのシステムで、その一部は顧客、ユーザーとの対話、理解を行い、一部は情報の取得、ストレージからの情報取得、RAGのような意味的AIシステムかもしれません。インターネットに行くかもしれませんし、PDFファイルを調査するかもしれません。
ツールを使用するかもしれません。計算機を使用するかもしれませんし、チャートなどを生成するための生成AIを使用するかもしれません。与えられた問題を分解し、ステップバイステップで進め、これらの異なるモデルを繰り返し処理しています。
将来的に顧客に応答するため、AIが応答するためには、以前は質問をして答えを出力し始めるだけでしたが、将来的には質問をすると、バックグラウンドで多数のモデルが作業することになります。そして、テスト時スケーリング、推論に使用される計算量は急増するでしょう。より良い、より良い回答を望むからです。
エンタープライズがエージェンティックAIを構築するのを支援するため、私たちのエンタープライズ顧客への直接的なアプローチではなく、ITエコシステムのソフトウェア開発者と協力して、新しい機能を可能にする技術を統合するアプローチを取っています。ちょうどCUDAライブラリで行ったように、今度はAIライブラリでそれを行いたいと考えています。
過去のコンピューティングモデルがコンピューターグラフィックスや線形代数、流体力学を行うAPIを持っていたように、将来的にはそれらの加速ライブラリ、C加速ライブラリの上にAIライブラリを持つことになります。エコシステムがエージェンティックAIを構築するのを支援するため、私たちは3つのものを作成しました。
NVIDIA NIMsは基本的にAIマイクロサービスで、すべてがパッケージ化されています。このような本当に複雑なCUDAソフトウェア、CUDA DNN、cuTLAS、TensorRT、Triton、これらすべての異なる本当に複雑なソフトウェアとモデル自体を取り、パッケージ化し、最適化し、コンテナに入れることで、好きな場所に持って行くことができます。
私たちは視覚、言語理解、音声、アニメーション、デジタルバイオロジーのためのモデルを持っており、物理的AIのための新しい興味深いモデルもいくつか登場しています。これらのAIモデルは、すべてのクラウドで実行されます。なぜならNVIDIAのGPUが今やすべてのクラウドで利用可能だからです。すべてのOEMで利用可能です。
つまり、文字通りこれらのモデルを取り、ソフトウェアパッケージに統合し、CadenceやServiceNowのエージェント、あるいはSAPのエージェントなどのAIエージェントを作成し、それを顧客に展開して、顧客が望む場所でソフトウェアを実行することができます。
次の層は、NVIDIA Nemoと呼ばれるものです。Nemoは基本的にデジタル従業員のオンボーディング、トレーニング、評価システムです。将来的に、これらのAIエージェントは基本的にデジタルワークフォースとなり、従業員と一緒に働き、あなたの代わりに物事を行います。
これらの特別なエージェントを会社に導入する方法は、従業員をオンボーディングするのと同じように行います。そのため、これらのAIエージェントが会社の言語タイプ、つまり会社固有の語彙、ビジネスプロセスが異なる、働き方が異なるなどを学習するのを支援する異なるライブラリを持っています。
作業成果物がどのようなものであるべきかの例を与え、彼らはそれを生成しようとし、フィードバックを与え、そして評価します。そして、ガードレールを設定します。これらは許可されていないこと、これらは言ってはいけないことなどを指定し、特定の情報へのアクセスも与えます。
そのような、デジタル従業員のパイプライン全体をNemoと呼んでいます。多くの意味で、すべての会社のIT部門は、将来的にAIエージェントのHR部門になるでしょう。今日、彼らはIT業界からの多くのソフトウェアを管理・維持していますが、将来的には、多くのデジタルエージェントを維持し、育成し、オンボーディングし、改善し、会社が使用するために提供することになります。
つまり、あなたのIT部門は一種のAIエージェントHRになるのです。そしてその上に、エコシステムが活用できる多くのブループリントを提供します。これらはすべて完全にオープンソースなので、ブループリントを取って修正することができます。様々な種類のエージェントのためのブループリントがあります。
今日、私たちは本当にクールで賢明だと思われることを発表します。LlamaをベースにしたNVIDIA Llama Neotron言語基盤モデルの全ファミリーを発表します。Llama 3.1は完全な現象です。MetaからのLlama 3.1のダウンロードは35~65万回くらいです。それは派生され、他のモデルに変換され、約6万の他の異なるモデルになっています。
これは、ほぼすべてのエンタープライズとすべての産業がAIでの作業を開始する理由となった単一の要因です。私たちが気付いたのは、Llamaモデルは本当にエンタープライズ使用のためにより良く微調整できるということでした。そこで、私たちの専門知識と能力を使用して微調整し、それらをLlama Neotronオープンモデルスイートに変換しました。
非常に高速な応答時間を持つ小規模なものもあれば、スーパーLLAMAニオトロンと呼ばれるメインストリームバージョンのモデル、そしてウルトラモデルもあります。
ウルトラモデルは、他の多くのモデルの教師モデルとして使用でき、報酬モデル評価者として、他のモデルの回答を判断し、フィードバックを提供することができます。様々な方法で蒸留が可能で、基本的に教師モデル、知識蒸留モデルとして非常に大規模で高性能です。これらすべてがオンラインで利用可能です。
これらのモデルは驚くべきもので、チャットリーダーボード、指示リーダーボード、検索リーダーボードで1位を獲得しています。世界中のAIエージェントで使用される様々な機能に対応しており、素晴らしいモデルになるでしょう。
私たちはエコシステムとも協力しており、NVIDIAのAIテクノロジーはすべて産業に統合されています。ServiceNow、SAP、シーメンスなど素晴らしいパートナーがおり、産業用AIで素晴らしい仕事をしています。ケイデンスやシノプシスも素晴らしい仕事をしており、検索を革新したPerplexityとの仕事も誇りに思っています。
Codiumについて、世界中の3000万人のソフトウェアエンジニアにとって、これは次の巨大なAIアプリケーション、次の巨大なAIサービスとなるでしょう。すべてのエンジニアがソフトウェアアシスタントを持つことになり、持たないと生産性が低下し、コードの品質も低下するでしょう。世界には10億人の知識労働者がおり、AIエージェントは次のロボティクス産業となり、数兆ドル規模の機会となる可能性が高いです。
私たちがパートナーと作成したブループリントと、AIエージェントについて説明させてください。AIエージェントは私たちのために、そして私たちと共に働く新しいデジタルワークフォースです。AIエージェントはミッションについて推論し、タスクに分解し、データを取得またはツールを使用して質の高い応答を生成するモデルのシステムです。
NVIDIAのエージェンティックAIビルディングブロック、NIMの事前学習モデル、NEMOフレームワークにより、組織は簡単にAIエージェントを開発し、どこにでもデプロイすることができます。私たちは、従業員と同じように、エージェンティックワークフォースを会社の方法論に組み込み、トレーニングします。AIエージェントはドメイン固有のタスクエキスパートです。
10億人の知識労働者と学生のために4つの例を示します。AIリサーチアシスタントエージェントは、講義、ジャーナル、財務結果などの複雑な文書を取り込み、簡単な学習のためのインタラクティブなポッドキャストを生成します。UNetモデルと拡散モデルを組み合わせることで、Cordiはグローバルな気象予報を25kmから2kmにダウンスケールできます。
NVIDIAのような開発者は、ソフトウェアセキュリティAIエージェントを使用して、継続的にソフトウェアの脆弱性をスキャンし、必要なアクションを開発者に警告します。バーチャルラボAIエージェントは、研究者が何十億もの化合物を設計・スクリーニングし、これまでにない速さで有望な薬剤候補を見つけるのを支援します。
NVIDIAアナリティクスAIエージェントは、NVIDIAメトロポリスのブループリント、NVIDIAコスモス、ニムロンビジョン言語モデル、LLAMAニオトンLLM、NEMOリトリーバーを基に構築されています。メトロポリスエージェントは、1日あたり10万ペタバイトのビデオを生成する数十億台のカメラからのコンテンツを分析し、インタラクティブな検索、要約、自動レポート作成を可能にし、交通の流れを監視して渋滞や危険を警告します。
産業施設では、プロセスを監視し、改善のための推奨事項を生成します。メトロポリスエージェントは、数百台のカメラからのデータを一元化し、インシデント発生時に作業員やロボットの経路を変更することができます。エージェンティックAIの時代が、すべての組織にやってきました。
AIはクラウドで作られ、クラウドのために作られました。スマートフォンでのAIも完璧です。まもなく、継続的なAIが私たちと共にあり、Metaのグラスを使用すると、何かを指さしたり見たりして、必要な情報を求めることができます。
AIはクラウドで作られ、クラウドで完璧に動作しますが、私たちはそのAIをどこにでも持っていきたいと考えています。すでに述べたように、NVIDIAのAIを任意のクラウドに持っていくことができますし、会社内部にも配置できます。しかし、私たちが何よりも望んでいるのは、PCにも搭載することです。
Windows 95はコンピュータ産業に革命をもたらし、新しいマルチメディアサービスを可能にし、アプリケーションの作成方法を永久に変えました。しかし、このコンピューティングモデルはAIには完璧ではありません。私たちが将来望むのは、AIがあなたのAIアシスタントとなることです。
3D APIやサウンドAPI、ビデオAPIに加えて、3Dの生成APIや言語の生成API、音声の生成APIなどを持つことになるでしょう。そのためには、クラウドにある膨大な投資を活用しながら、それを可能にするシステムが必要です。世界がAIモデルのプログラミングの新しい方法をさらに作り出すことはできません。
WindowsのPCを世界クラスのAI PCにする方法を見つけることができれば、それは素晴らしいことです。その答えはWindows、WSL2です。WSL2は1つの中に2つのオペレーティングシステムがあり、完璧に動作します。開発者向けに開発され、ベアメタルにアクセスできるように開発されています。
WSL2はクラウドネイティブアプリケーション用に最適化され、非常に重要なことに、CUDA用に最適化されています。WSL2はCUDAを完璧にサポートしています。その結果、NVIDIAのNIM、NEMOなど、ai.nvidia.comで公開されるブループリントは、コンピュータに適合する限り、そのモデルに適合する限り動作します。
ビジョンモデルや言語モデル、音声モデル、デジタルヒューマンモデルなど、様々な種類のモデルがPCに完璧に適合し、ダウンロードすれば動作するはずです。私たちの焦点は、Windows WSL2のWindowsのPCを、私たちが生きている限りサポートし、維持する第一級のプラットフォームにすることです。
これは世界中のエンジニアと開発者にとって信じられないことです。ブループリントの一例をお見せしましょう。生成AIは、シンプルなテキストプロンプトから驚くべき画像を合成しますが、画像の構成を言葉だけで制御するのは難しい場合があります。
NVIDIAのNIMマイクロサービスを使用すると、クリエイターはシンプルな3Dオブジェクトを使用してAI画像生成をガイドできます。コンセプトアーティストがこのテクノロジーを使用してシーンの外観を開発する方法を見てみましょう。
手作りまたはAIで生成された3Dアセットをレイアウトし、FLUXなどのイメージ生成NIMを使用して、3Dシーンに準拠する視覚的要素を作成します。オブジェクトを追加または移動して構図を調整し、完璧なショットをフレーミングするためにカメラアングルを変更したり、新しいプロンプトで全体のシーンを再構築したりできます。
生成AIとNVIDIA NIMに支援されて、アーティストは素早く自分のビジョンを実現できます。PCのためのNVIDIA AI、世界中に何億台ものWindowsのPCがあり、AIの準備を整えることができます。OEMやすべてのPCが、このスタックの準備を整えることになります。AI PCがあなたの近くの家にやってきます。
物理AIについて話しましょう。大規模言語モデルでは、左側にコンテキストとプロンプトを入力し、1つずつトークンを生成して出力を作成します。中間のモデルは非常に大きく、数十億のパラメータを持ち、コンテキスト長も非常に大きいです。PDFを読み込むことができ、私の場合は質問をする前に複数のPDFを読み込むかもしれません。
これらのPDFはトークンに変換され、トランスフォーマーの基本的な注意特性により、各トークンは他のすべてのトークンとの関係と関連性を見出します。数十万のトークンがあり、計算負荷は二次関数的に増加します。すべてのパラメータ、入力シーケンスをトランスフォーマーの各レイヤーを通して処理し、1つのトークンを生成します。
これがBlackwellが必要だった理由です。次のトークンは、現在のトークンが完了したときに生成されます。現在のトークンを入力シーケンスに入れ、それ全体を取り込んで次のトークンを生成します。1つずつ生成します。これがトランスフォーマーモデルであり、計算的に非常に効果的である理由です。
PDFの代わりに周囲の環境で、プロンプトの質問の代わりに「あそこに行ってそのボックスを取ってきて」というような要求で、生成されるテキストの代わりにアクショントークンを生成するとどうでしょうか。これは、ロボティクスの将来にとって非常に理にかなったことであり、技術は目前にあります。
しかし、私たちがする必要があるのは、GPTが言語モデルであるのに対して、効果的に世界モデルを作ることです。この世界モデルは世界の言語を理解する必要があります。重力、摩擦、慣性などの物理的なダイナミクスを理解する必要があります。
幾何学的・空間的な関係を理解し、原因と結果を理解する必要があります。何かを落とせば地面に落ちる、突くと倒れるなどです。また、物体の永続性も理解する必要があります。キッチンカウンターの上でボールを転がすと、反対側に行ったときにボールが別の量子宇宙に消えたわけではなく、まだそこにあります。
これらの種類の理解は、今日のほとんどのモデルが苦手とする直感的な理解です。私たちは世界の基礎モデルを作りたいと考えています。今日、大きな発表をします。私たちは、物理的な世界を理解するために作られた世界基礎モデル、NVIDIA Cosmosを発表します。
これを本当に理解するには、見ていただくしかありません。AIの次のフロンティアは物理AIです。モデルのパフォーマンスはデータの利用可能性に直接関係しますが、物理世界のデータは取得、キュレーション、ラベル付けにコストがかかります。
NVIDIA Cosmosは、物理AIを進歩させるための世界基礎モデル開発プラットフォームです。自己回帰型世界基礎モデル、拡散ベースの世界基礎モデル、高度なトークナイザー、NVIDIAのCUDAとAIで加速されたデータパイプラインを含みます。
Cosmosモデルはテキスト、画像、またはビデオプロンプトを取り込み、仮想世界の状態をビデオとして生成します。Cosmos生成は、自動運転車やロボティクスのユースケースに特有の要件、例えば実世界の環境、照明、物体の永続性を優先します。開発者はNVIDIA Omniverseを使用して、物理ベースの地理空間的に正確なシナリオを構築し、その後OmniverseのレンダリングをCosmosに出力します。これにより、写実的で物理ベースの合成データが生成されます。
多様なオブジェクトや環境、天候や時間帯などの条件、エッジケースシナリオなど、開発者はCosmosを使用してポリシーモデルの改善のための強化学習AIフィードバック用の世界を生成したり、マルチセンサービューでもモデルのパフォーマンスをテストおよび検証したりできます。
Cosmosはリアルタイムでトークンを生成し、AIモデルに先見性とマルチバース・シミュレーションのパワーをもたらし、モデルが正しい道を選択するために、可能なすべての未来を生成します。世界の開発者エコシステムと協力して、NVIDIAは物理AIの次の波を進歩させることを支援しています。
NVIDIA Cosmos、世界初の世界基礎モデル。2000万時間のビデオでトレーニングされ、そのビデオは物理的なダイナミックなものに焦点を当てています。自然のダイナミクスや、人間の歩行、手の動き、物の操作、速いカメラの動きなどです。
AIにクリエイティブなコンテンツの生成ではなく、物理的な世界を理解させることが目的です。この物理AIから、多くのダウンストリームの成果が得られます。モデルをトレーニングするための合成データ生成、それを蒸留してロボティクスモデルの基礎とすることができます。
物理的に基づいた、物理的に妥当な複数の将来シナリオを生成し、基本的にドクター・ストレンジのようなことができます。このモデルは物理的な世界を理解しているので、もちろん多くの画像生成が可能で、キャプション付けも非常に上手くできます。そのキャプションとビデオを使用して、大規模言語モデル、マルチモダリティ大規模言語モデルをトレーニングすることができます。
このテクノロジーを使用して、この基礎モデルでロボットやより大きな言語モデルをトレーニングすることもできます。これがNVIDIA Cosmosです。このプラットフォームには、リアルタイムアプリケーション用の自己回帰モデル、非常に高品質な画像生成用の拡散モデル、実世界の語彙を学習する素晴らしいトークナイザー、データパイプラインがあります。
独自のデータでトレーニングしたい場合、このデータパイプラインは、多くのデータが関係するため、すべてをエンドツーエンドで加速化しています。これは世界初のCUDA加速およびAI加速されたデータ処理パイプラインです。
これはすべてCosmosプラットフォームの一部であり、今日、CosmosはオープンライセンスでGitHubで利用可能になることを発表します。非常に高速なモデル用の小規模、メインストリームモデル用の中規模、教師モデル、基本的に知識伝達モデル用の大規模があります。
Cosmosの世界基礎モデルがオープンになることで、LLAMA 3が企業AIに対して行ったことを、ロボティクスと産業AIの世界に対して行うことを希望しています。
魔法はCosmosとOmniverseを接続したときに起こります。その基本的な理由は、Omniverseが物理的な根拠ではなく、物理的な原則に基づいているからです。アルゴリズム的な物理、物理原則に基づいたシミュレーションシステムです。
それをCosmosに接続すると、Cosmosの生成を制御し、条件付けるための根拠、真実の根拠を提供します。これは、大規模言語モデルをRAG(検索拡張生成)システムに接続するのと同じアイデアです。AI生成を真実に基づかせたいのです。
この2つの組み合わせにより、物理的にシミュレートされた、物理的に根拠のあるマルチバース生成器が得られます。応用事例は非常にエキサイティングで、ロボティクスや産業用アプリケーションにとって、これは非常に明確です。
Cosmos + Omniverse + Cosmosは、ロボットシステムを構築するために必要な第3のコンピュータを表しています。すべてのロボット企業は最終的に3つのコンピュータを構築する必要があります。ロボットシステムは工場かもしれませんし、車かもしれませんし、ロボットかもしれません。
3つの基本的なコンピュータが必要です。1つ目はもちろんAIをトレーニングするためのもので、DGXコンピュータと呼びます。2つ目はもちろんAIをデプロイするためのもので、AGXと呼び、車やロボット、AMRの中、あるいはスタジアムなどにあります。これらのコンピュータはエッジにあり、自律的です。
しかし、この2つを接続するためには、デジタルツインが必要です。これがあなたが見ているシミュレーションすべてです。デジタルツインは、トレーニングされたAIが練習し、合成データ生成、強化学習AIフィードバックなどで洗練される場所です。
そしてそれはAIのデジタルツインです。これら3つのコンピュータが相互に作用することになります。産業界に対するNVIDIAの戦略は、この3つのコンピュータシステムです。三体問題の代わりに、三コンピュータソリューションを持っています。これがNVIDIAのロボティクスです。
3つの例を示させてください。最初の例は、産業のデジタル化にこれらすべてをどのように適用するかです。何百万もの工場、何十万もの倉庫があり、これは基本的に50兆ドルの製造業の背骨です。
それらすべてがソフトウェア定義になり、将来的にはすべてに自動化が必要で、すべてにロボティクスが組み込まれることになります。私たちは、世界をリードする倉庫自動化ソリューションプロバイダーのKeonsと、世界最大のプロフェッショナルサービスプロバイダーであり、デジタル製造に大きな焦点を当てているアクセンチュアと提携しています。
私たちは一緒に本当に特別なものを作ろうとしています。私たちのマーケットへの展開は、基本的に他のすべてのソフトウェアプラットフォームやテクノロジープラットフォームと同じです。開発者とエコシステムパートナーを通じて、Omniverseに接続するエコシステムパートナーの数は増え続けています。
その理由は明確です。誰もが産業の未来をデジタル化したいと考えています。世界のGDPの50兆ドルにおいて、多くの無駄があり、自動化の機会がたくさんあります。Keon、アクセンチュアと一緒に行っている例を見てみましょう。
サプライチェーンソリューション企業のKeon、プロフェッショナルサービスのグローバルリーダーであるアクセンチュア、そしてNVIDIAは、1兆ドルの倉庫・流通センター市場に物理AIをもたらしています。高性能な倉庫物流の管理には、常に変動する変数の影響を受ける複雑な意思決定のネットワークをナビゲートする必要があります。
これには、日次および季節的な需要の変化、スペースの制約、労働力の可用性、多様なロボットと自動化システムの統合が含まれます。今日、物理的な倉庫の運用KPIを予測することはほぼ不可能です。これらの課題に取り組むため、Keonは産業用デジタルツインを構築するためのNVIDIA Omniverseのブループリント、MEGAを採用しています。
まず、Keonの倉庫管理ソリューションは、バッファーロケーションからシャトルストレージソリューションへの荷物の移動など、デジタルツイン内の産業用AIブレインにタスクを割り当てます。ロボットのブレインは、オープンUSDコネクタを使用してCAD、ビデオ、画像から3Dライトアート、ポイントクラウド、AI生成データを集約してOmniverseにデジタル化された物理的な倉庫のシミュレーション内にあります。
ロボットの艦隊は、Omniverseデジタルツイン環境を認識し、推論し、次の動きを計画し、行動することでタスクを実行します。ロボットのブレインは、センサーシミュレーションを通じて結果の状態を見て、次のアクションを決定できます。
MEGAがデジタルツイン内のすべての状態を正確に追跡している間、このループは継続します。これでKeonは、物理的な倉庫に変更をデプロイする前に、スループット、効率性、利用率などの運用KPIを測定しながら、無限のシナリオを大規模にシミュレートできます。
NVIDIAと共に、Keonとアクセンチュアは産業用自律性を再発明しています。未来では、すべての工場がデジタルツインを持つことになります。そのデジタルツインは実際の工場と全く同じように動作し、実際にはOmniverseとCosmosを使用して多くの将来のシナリオを生成し、そしてAIがどのシナリオが特定のKPIに対して最適かを決定します。
そしてそれが、実際の工場にデプロイされるAIのプログラミング制約、プログラムとなります。次の例は自動運転車です。多くの年月を経て、WaymoとTeslaの成功により、自動運転車革命がついに到来しました。
この産業に対する私たちの提供は3つのコンピュータです。AIをトレーニングするトレーニングシステム、シミュレーションシステム、合成データ生成システム、OmniverseとCosmos、そして車の中のコンピュータです。各自動車会社は、1つ、2つ、または3つのコンピュータを使用して、異なる方法で私たちと協力するかもしれません。
私たちは世界中のほぼすべての主要な自動車会社と協力しています。データセンターではWaymo、Zoox、Tesla、世界最大のEV企業BYD、素晴らしい車を準備しているジャガー・ランドローバー、今年から生産を開始するNVIDIA搭載の車両群を持つメルセデス・ベンツ。
そして、本日、トヨタとNVIDIAが次世代の自動運転車を作るためにパートナーシップを組むことを発表できることを非常に嬉しく思います。Lucid、Rivian、Xiaomi、そしてもちろんボルボなど、本当に多くの素晴らしい企業があります。Waybiは自動運転トラックを開発しており、Auroraも今週、自動運転トラックを開発するためにNVIDIAを使用することを発表しました。
毎年1億台の車が生産され、世界中の道路には10億台の車両があり、世界中で毎年1兆マイルが走行されています。これらはすべて、高度に自律的になるか、完全に自律的になってきます。これは非常に大きな産業になるでしょう。これが最初の数兆ドル規模のロボティクス産業になると予測しています。
この事業は、世界に登場し始めているこれらの車のわずか数台で、すでに40億ドルの規模であり、今年は恐らく50億ドルのランレートになるでしょう。これは非常に大きな事業になります。
本日、車用の次世代プロセッサ、次世代コンピュータを発表します。それはThorと呼ばれます。ここに1つ持っています。これがThorです。これはロボティクスコンピュータです。センサーと膨大な量のセンサー情報を取り込み、19台のカメラ、高解像度レーダー、ライダーなどがすべてこのチップに入力され、このチップはそれらのセンサーをすべて処理し、トークンに変換し、トランスフォーマーに入れて、次の経路を予測する必要があります。
この自動運転コンピュータは現在、フル生産に入っています。Thorは、今日の自動運転車の標準となっている前世代のOrinの20倍の処理能力を持っています。これは本当に素晴らしいものです。Thorはフル生産に入っています。
このロボティクスプロセッサは、完全なロボットにも使用できます。AMRかもしれませんし、ヒューマノイドロボットかもしれませんし、ブレインかもしれませんし、マニピュレータかもしれません。このプロセッサは基本的にユニバーサルなロボティクスコンピュータです。
私たちのドライブシステムの2番目の部分で、非常に誇りに思っているのは、安全性への取り組みです。Drive OSが、自動車の機能安全性において最高基準であるASIL-D認証を取得した最初のソフトウェア定義プログラマブルAIコンピュータになったことを発表できることを嬉しく思います。
これは唯一かつ最高の基準であり、ISO 26262に準拠しています。これは約1万5000人年の工学的な取り組みの成果です。これは本当に驚くべき仕事です。その結果、CUDAは機能的に安全なコンピュータになりました。
ロボットを作る場合、NVIDIA CUDAを使用できます。OmniverseとCosmosを使って自動運転車の文脈で何をするのか、お見せしたいと思います。今日は、道路を走る車の映像をたくさん見せる代わりに、AIで自動的にデジタルツインを再構築し、その能力を使って将来のAMモデルをトレーニングする方法をお見せします。
自動運転車革命が到来しました。すべてのロボットと同様に、自動運転車の構築には3つのコンピュータが必要です。AIモデルをトレーニングするNVIDIA DGX、テストドライブと合成データを生成するOmniverse、そして車内のスーパーコンピュータであるDrive AGXです。
安全な自動運転車を作るには、エッジケースに対処する必要がありますが、実世界のデータには限界があるため、トレーニングデータを何桁も増やすために合成データが不可欠です。NVIDIA Omniverse、AIモデル、Cosmosを搭載した自動運転車データファクトリーは、合成的な運転シナリオを生成し、トレーニングデータを桁違いに強化します。
まず、OmniMapは地図と地理空間データを融合して、運転可能な3D環境を構築します。運転シナリオのバリエーションは、ドライブログの再生またはAIトラフィックジェネレーターから生成できます。次に、ニューロ再構築エンジンは自動運転車のセンサーログを使用して、高精度な4Dシミュレーション環境を作成します。
これは以前のドライブを3Dで再生し、トレーニングデータを増幅するためにシナリオのバリエーションを生成します。最後に、Edify 3DSは既存のアセットライブラリを自動的に検索するか、シミュレーション準備完了のシーンを作成するために新しいアセットを生成します。
Omniverseのシナリオは、Cosmosに条件付けを行い、シムからリアルへのギャップを減少させる大量の写実的なデータを生成するために使用されます。そしてテキストプロンプトで、運転シナリオの無限のバリエーションを生成します。
Cosmos Neotronビデオ検索により、記録されたドライブと組み合わされた大規模にスケールされた合成データセットをキュレートし、モデルをトレーニングすることができます。NVIDIAのAIデータファクトリーは、数百回のドライブを数十億マイルに拡大し、安全で高度な自動運転の基準を設定します。
これは信じられないことではありませんか?数千回のドライブを何十億マイルに変換します。自動運転車のための膨大なトレーニングデータを持つことになります。もちろん、実際の車を道路で走らせる必要はまだありますし、私たちが生きている限りデータを継続的に収集し続けます。
しかし、このマルチバース、物理的に基づいた、物理的に根拠のある能力を使用した合成データ生成により、物理的に根拠があり正確、あるいは妥当なAIのトレーニングデータを膨大に生成できます。
自動運転車産業が到来しました。これは非常にエキサイティングな時期です。コンピュータグラフィックスが信じられないペースで革新されたように、今後数年間で自動運転車開発のペースが劇的に加速するのを目にすることになるでしょう。
次はロボティクスです。私の友人の皆さん、一般的なロボティクスに対するChatGPTの瞬間は目前に迫っています。実際、私が話してきたすべての実現技術により、今後数年で一般的なロボティクスにおいて非常に急速な、驚くべきブレークスルーを目にすることが可能になります。
一般的なロボティクスが非常に重要な理由は、トラックや車輪を持つロボットが特別な環境を必要とするのに対し、世界には3つのロボットがあり、それらはグリーンフィールドやブラウンフィールドの適応を必要としないからです。
これらの素晴らしいロボットを作ることができれば、私たち自身が作り上げた世界にそのまま展開することができます。これら3つのロボットは、1つ目はエージェンティックロボット、エージェンティックAIです。なぜなら、それらは情報労働者であり、オフィスにある私たちのコンピュータに適応できる限り素晴らしいものになるからです。
2つ目は自動運転車です。その理由は、私たちが100年以上かけて道路や都市を作り上げてきたからです。そして3つ目はヒューマノイドロボットです。これら3つの技術を解決できれば、これは世界が今まで見た中で最大の技術産業となるでしょう。
そしてロボティクスの時代は目前に迫っています。重要な能力は、これらのロボットをどのようにトレーニングするかです。ヒューマノイドロボットの場合、模倣情報の収集は非常に困難です。その理由は、車の場合は運転するだけで、私たちは常に車を運転していますが、これらのヒューマノイドロボットの場合、模倣情報、人間のデモンストレーションは非常に労力を要するからです。
そのため、数百のデモンストレーション、数千の人間のデモンストレーションを取り、どうにかして人工知能とOmniverseを使用して、何百万もの合成的に生成された動きを生成する賢い方法を考え出す必要があります。そしてそれらの動きから、AIがタスクの実行方法を学習することができます。
それがどのように行われるのか、お見せしましょう。世界中の開発者たちが、次世代の物理AI、実体化されたロボット、ヒューマノイドを構築しています。汎用ロボットモデルの開発には、膨大な量の実世界データが必要であり、それを取得し、キュレートするにはコストがかかります。
NVIDIA Isaac Grootは、ヒューマノイドロボット開発者にこれらの課題に取り組むための4つのものを提供します。ロボット基礎モデル、データパイプライン、シミュレーションフレームワーク、そしてThorロボティクスコンピュータです。
模倣学習のためのNVIDIA Isaac Grootブループリントは、小規模な人間のデモンストレーションから指数関数的に大きなデータセットを生成できるシミュレーションワークフローです。まず、Groot Teleopを使用すると、熟練した作業者がApple Vision Proを使用してロボットのデジタルツインにポータルを開くことができます。
これは、物理的なロボットがなくてもデータを取得できることを意味し、リスクのない環境でロボットを操作できるため、物理的な損傷や摩耗の可能性を排除できます。単一のタスクをロボットに教えるために、オペレーターはテレオペレーション操作を通じて少数のデモンストレーションでモーショントラジェクトリを取得し、次にGroot Mimicを使用してこれらのトラジェクトリをはるかに大きなデータセットに増やします。
次に、OmniverseとCosmosを基盤とするGroot Genを使用して、ドメインランダム化と3D to Real upscalingを行い、指数関数的に大きなデータセットを生成します。OMIEとCosmosのマルチバースシミュレーションエンジンは、ロボットのポリシーをトレーニングするための大規模なスケールのデータセットを提供します。
ポリシーがトレーニングされたら、開発者は実際のロボットにデプロイする前に、Isaac Simでソフトウェアインザループのテストと検証を実行できます。NVIDIA Isaac Grootによって支えられた一般的なロボティクスの時代が到来しています。
NVIDIA Isaac Grootにより、ロボットのトレーニングに莫大なデータを持つことになります。これは、一般的なロボティクスの開発を加速するために、ロボティクス産業にテクノロジープラットフォーム要素を提供する私たちのプラットフォームです。
さて、もう1つお見せしたいものがあります。これらすべては、約10年前に会社内で始めたこの信じられないプロジェクトがなければ不可能でした。プロジェクト名はProject Digits、Deep Learning GPU Intelligence Training Systemでした。
発表する前に、RTX、AGX、OVX、そして会社内の他のすべてのXと調和させるためにDGXに縮めました。そしてDGX1は本当に人工知能に革命を起こしました。私たちがそれを作った理由は、研究者とスタートアップが箱から出してすぐに使えるAIスーパーコンピュータを持てるようにしたかったからです。
過去のスーパーコンピュータの作り方を想像してみてください。自分の施設を建設し、インフラを構築し、本当に工学的に存在させる必要がありました。そこで私たちは、研究者とスタートアップのために、文字通り箱から出してすぐに使えるAI開発用スーパーコンピュータを作りました。
2016年にOpenAIというスタートアップ企業に最初の1台を届けました。そこにはイーロンがいて、イリヤ・スツケバーがいて、多くのNVIDIAのエンジニアがいました。私たちはDGX1の到来を祝いました。そしてもちろん、それは人工知能とコンピューティングに革命を起こしました。
しかし今や人工知能はどこにでもあります。研究とスタートアップのラボだけではありません。冒頭で話したように、これは新しいコンピューティングの方法であり、新しいソフトウェアの方法です。すべてのソフトウェアエンジニア、すべてのエンジニア、すべてのクリエイティブアーティスト、今日コンピュータをツールとして使うすべての人がAIを必要とすることになります。
私はただDGX1がもっと小さければと思っていました。皆さん、これがNVIDIAの最新のAIスーパーコンピュータです。現在はProject Digitsと呼ばれています。もし良い名前があれば、ご連絡ください。
ここにある素晴らしいことは、これがAIスーパーコンピュータだということです。NVIDIAのAIスタックすべてを実行し、NVIDIAのソフトウェアはすべてこれで動作します。DGXクラウドもこれで動作します。これはどこかに置かれ、ワイヤレスか、あるいはあなたのコンピュータに接続されています。
望めばワークステーションにもなり、クラウドスーパーコンピュータのようにアクセスすることができ、NVIDIAのAIがそこで動作します。これはGB110と呼ばれる極秘チップをベースにしており、私たちが作る最小のGrace Blackwellです。
皆さんにお見せしましょう。とても可愛いと思いませんか?この中のチップは生産中です。この極秘チップは、CPUのGray CPUがNVIDIAのために世界をリードするSOC企業であるMediaTekとの協力で作られました。
彼らは私たちと協力してこのCPUを作り、チップツーチップMVLINKでBlackwell GPUと接続しました。この小さなものは完全な生産に入っており、このコンピュータは5月頃に利用可能になる予定です。私たちができることは本当に信じられないことです。
私は、もっと手が必要なのか、もっとポケットが必要なのか考えていました。これが見た目です。誰がこれを欲しくないでしょうか?PCやMacを使っている人なら誰でも、これはクラウドプラットフォームであり、デスクに置くクラウドコンピューティングプラットフォームだからです。望めばLinuxワークステーションとしても使用できます。Project Digitsを2台持ちたい場合は、このような感じです。ConnectXで接続し、NICとGPU Directがすべて箱から出してすぐに使えます。スーパーコンピュータのようです。私たちのスーパーコンピューティングスタックがすべて利用可能です。これがNVIDIA Project Digitsです。
では、私が話したことをまとめましょう。3つの新しいBlackwellが生産に入っていると言いました。Grace Blackwellスーパーコンピュータ、MVLink 72sが世界中で生産されているだけでなく、今や3つの新しいBlackwellシステムが生産に入っています。
1つは驚くべきAI基礎モデル、世界初の物理AI基礎モデルです。これはオープンで利用可能であり、世界のロボティクスなどの産業を活性化します。そして3つ目は、エージェンティックAI、ヒューマノイドロボット、自動運転車に取り組む3つのロボットです。
信じられない1年でした。皆様のパートナーシップに感謝し、皆様のご来場に感謝いたします。

いいなと思ったら応援しよう!