[全文和訳]エヌヴィディアCEOジェンスン・ファンがCES2025で語ったこと/NVIDIA CEO Jensen Huang Keynote at CES 2025
イントロダクション (00:05-04:01)
AIと知能の生成に関する序文
ジェンセン・ファンの登場
00:05
これが知能が作られる方法です。新しい種類の工場、トークンのジェネレーター、AIの構成要素です。トークンは新しい領域を開き、無限の可能性が生まれる驚異的な世界への最初の一歩となりました。
00:34
トークンは言葉を知識に変え、画像に命を吹き込みます。アイデアを動画に変換し、あらゆる環境を安全にナビゲートするのを助けます。トークンはロボットにマスターのような動きを教え、私たちの勝利を祝う新しい方法を生み出し、最も必要な時に安心を与えてくれます。こんにちは、マロカ。
01:14
こんにちは、アンナ。また会えて嬉しいです。こんにちは、エマ。今日は採血をさせていただきますね。大丈夫ですよ。私がずっとそばにいますから。トークンは数字に意味を持たせ、私たちの周りの世界をよりよく理解し、私たちを取り巻く危険を予測し、私たちの内部の脅威への治療法を見つけるのを助けます。
02:00
トークンは私たちのビジョンを実現し、失われたものを取り戻すことができます。ザカリー、僕は声を取り戻したんだよ。トークンは私たちが一歩一歩前進するのを助け、共に大きな飛躍を遂げることができます。そしてここが、すべての始まりの場所です。
03:05
NVIDIAの創設者兼CEOのジェンセン・ファンを迎えましょう。CESへようこそ!ラスベガスに来て興奮していますか?私のジャケットはどうですか?ゲイリー・シャピロとは違う方向に行ってみました。結局ラスベガスにいるわけですから。
03:39
もしこれがうまくいかなければ、もし皆さんが反対するなら、まあ慣れていただくしかありません。本当に、これを受け入れていただく必要があります。あと1時間もすれば、きっと良い気分になると思います。さて、NVIDIAへようこそ。
NVIDIAの歴史と進化 (04:01-09:32)
1993年からの歴史
GPUの発展
AIの進化の過程
04:01
実際、皆さんはNVIDIAのデジタルツイン内にいます。NVIDIAをご案内しましょう。皆様、NVIDIAへようこそ。デジタルツイン内にいらっしゃいます。ここにあるものすべてはAIによって生成されています。これは驚異的な旅路であり、驚異的な年でした。
04:30
そして1993年に始まりました。始めましょう! NV1で、私たちは通常のコンピュータができないことができるコンピュータを作りたいと考えました...そしてNV1によってPCでゲーム機能を持つことが可能になりました。私たちのプログラミングアーキテクチャはUDAと呼ばれ、Cの文字が欠けていましたが、しばらくしてUDA、Unified Device Architectureとなり、UDAの最初の開発者であり、UDAで最初に取り組んだアプリケーションはセガのバーチャファイターでした。
05:11
6年後の1999年、私たちはプログラマブルGPUを発明し、GPUと呼ばれるこの驚異的なプロセッサの20年以上にわたる信じられない進歩が始まりました。これにより、現代のコンピュータグラフィックスが可能になりました。
05:33
そして今、30年後、セガのバーチャファイターは完全にシネマティックになっています。これは新しいバーチャファイタープロジェクトで、本当に待ちきれません。まさに信じられないほどです。その6年後、1999年の6年後、私たちはCUDAを発明し、GPUのプログラマビリティを豊富なアルゴリズムセットに活用できるようにしました。
06:06
当初CUDAは説明が難しく、実際に時間がかかりました。約6年かかりました。何故か6年後、2012年頃、アレックス・クリシェフスキー、イリヤ・サスコバー、ジェフ・ヒントンがCUDAを発見し、AlexNetの処理に使用し、残りは歴史となりました。
06:38
それ以来、AIは信じられないペースで進歩してきました。知覚AIから始まり、画像や言葉、音を理解できるようになりました。生成AIへと進み、画像やテキスト、音を生成できるようになりました。そして今、エージェントAIへと進化しています。
06:57
知覚、推論、計画、行動ができるAIです。そして次のフェーズ、今夜お話しする内容の一部ですが、フィジカルAI、2012年。そして魔法のように、2018年に素晴らしいことが起きました。GoogleのTransformerがBERTとしてリリースされ、AI界は本当に飛躍しました。
07:26
ご存じの通り、Transformerは人工知能の状況を完全に変えました。実際、コンピューティング全体の状況を完全に変えました。私たちは、AIは単なる新しいアプリケーションやビジネスチャンスではなく、より重要なことに、Transformerによって可能になった機械学習が、コンピューティングの仕組みを根本的に変えることを適切に認識しました。
07:54
そして今日、コンピューティングはあらゆる層で革新されています。CPUで実行される手書きのコードから、人間が使用するソフトウェアツールを作成することから、今では機械学習がニューラルネットワークを作成・最適化し、GPUで処理して人工知能を生成します。
08:19
技術スタックのあらゆる層が完全に変化しました。わずか12年での信じられない変革です。さて、私たちはあらゆる種類の情報を理解できるようになりました。テキストや画像、音声などはもちろんご存じでしょう。
08:40
しかしそれらを理解できるだけでなく、アミノ酸も理解できます。物理学も理解できます。私たちはそれらを理解し、翻訳し、生成することができます。アプリケーションの可能性は本当に無限です。
08:54
実際、外にあるほとんどすべてのAIアプリケーションは、どのような形式の入力から学習し、どのような形式の情報に翻訳し、どのような形式の情報を生成するのか、これら3つの基本的な質問をすれば理解できます。
09:09
ほぼすべてのアプリケーションを推測できます。そしてAI駆動型、AIネイティブのアプリケーションを次々と見ていくと、その核心にはこの基本的な概念があります。機械学習は、すべてのアプリケーションの構築方法、コンピューティングの実行方法、そしてその先の可能性を変えました。
新製品発表:RTX Blackwellファミリー (09:32-21:47)
RTX 50シリーズの紹介
性能と仕様の詳細
ノートPC向けGPUの発表
09:32
さて、GeForce、GPUは、多くの意味で、このAIはGeForceが築いた家です。GeForceはAIを大衆に届けることを可能にしました。そして今、AIはGeForceに戻ってきています。AIなしではできないことがたくさんあります。
09:56
いくつかをお見せしましょう。ありがとうございます。ありがとうございます。Aはリアルタイムのコンピュータグラフィックスでした。コンピュータグラフィックスの研究者も、コンピュータ科学者も、この時点ですべてのピクセルをレイトレーシングできるとは誰も言わなかったでしょう。
11:56
レイトレーシングは光のシミュレーションです。見ていただいたジオメトリの量は本当に信じられないものでした。人工知能なしでは不可能だったでしょう。私たちは2つの基本的なことを行いました。
12:08
もちろん、プログラマブルシェーディングとレイトレース加速を使用して、信じられないほど美しいピクセルを生成しました。そして人工知能にそのピクセルによって条件付けられ、制御されるようにし、他の多くのピクセルを生成させました。
12:27
空間的に他のピクセルを生成できるだけでなく、色がどうあるべきかを認識しているため、NVIDIAのスーパーコンピュータでトレーニングされています。そしてGPUで実行されているニューラルネットワークは、私たちがレンダリングしなかったピクセルを推論し、予測することができます。
12:46
それだけでなく、それはDLSSと呼ばれます。DLSSの最新世代はフレームを超えて生成することもできます。計算した1フレームごとに、追加で3フレームを予測生成できます。
13:01
お見せしたものは、4フレームと言いましたが、1フレームをレンダリングして3フレームを生成するので、フルHD 4Kで4フレームと言うと、それは約3,300万ピクセルになります。その3,300万ピクセルのうち、私たちが計算したのはわずか200万ピクセルです。
13:23
プログラマブルシェーダーとレイトレーシングエンジンを使用して200万ピクセルを計算し、AIに他のすべての3,300万ピクセルを予測させることができるのは、絶対的な奇跡です。その結果、AIの計算量が大幅に少なくなるため、信じられないほど高いパフォーマンスでレンダリングできます。
13:48
もちろん、それを生成するには膨大なトレーニングが必要ですが、一度トレーニングすれば、生成は非常に効率的です。これが人工知能の信じられない機能の1つであり、そのため多くの驚くべきことが起きています。
14:03
私たちはGeForceを使って人工知能を可能にし、今や人工知能がGeForceを革新しています。皆さん、本日、私たちは次世代のRTX Blackwellファミリーを発表します。見てみましょう。
15:17
こちらが、私たちの新しいGeForce RTX 50シリーズBlackwellアーキテクチャです。このGPUは本当に凄まじく、920億トランジスタ、4,000 TOPS、4ペタフロップスのAI性能を持ち、前世代のADAの3倍の性能があります。これらのピクセルを生成するために、私たちはこれらすべてを必要としています。
15:48
380レイトレーシングテラフロップスにより、計算する必要のあるピクセルに対して、可能な限り最も美しい画像を計算できます。そしてもちろん、125シェーダーテラフロップス、実際には同等の性能を持つ整数ユニットと並行したシェーダーテラフロップスもあります。
16:06
つまり、デュアルシェーダーで、1つは浮動小数点用、もう1つは整数用です。MicronのG7メモリは1.8テラバイト/秒で、前世代の2倍のパフォーマンスです。そして今、AIワークロードとコンピュータグラフィックスワークロードを混在させる機能があります。
16:26
そしてこの世代の素晴らしいことの1つは、プログラマブルシェーダーが今やニューラルネットワークを処理することもできるということです。シェーダーはこれらのニューラルネットワークを処理できます。その結果、私たちはニューラル・テクスチャ圧縮とニューラル・マテリアル・シェーディングを発明しました。
16:45
その結果、AIを使用してテクスチャを学習し、圧縮アルゴリズムを学習することで、驚くべき結果が得られる、これらの驚くほど美しい画像が得られます。
16:57
さて、これが新しいRTX Blackwell 59です。機械設計さえも奇跡です。見てください、2つのファンがあります。このグラフィックスカード全体が1つの巨大なファンです。では、グラフィックスカードはどこにあるのでしょうか?
17:24
実際にはこのくらいの大きさです。電圧制御設計は最先端です。信じられないデザインです。エンジニアリングチームは素晴らしい仕事をしました。はい、これです。ありがとうございます。さて、これらがスペックです。では、比較してみましょう。
17:46
これがRTX 4090です。はい。多くの皆さんが持っているのは知っています。価格は1,599ドルです。これは可能な限り最高の投資の1つです。1,599ドルで、1万ドルのPCエンターテインメントコマンドセンターに持ち帰ることができます。
18:17
そうですよね?違うとは言わないでください。恥ずかしがる必要はありません。水冷式です。あちこちに派手なライトがついています。外出時には鍵をかけます。これが現代のホームシアターです。完全に理にかなっています。そして今、1,599ドルでアップグレードして、それを最大限にターボチャージすることができます。
18:44
さて、今、Blackwellファミリーでは、RTX 5070が4090のパフォーマンスを549ドルで実現します。これは人工知能なしでは不可能、4テラオプスのAIテンソルコアなしでは不可能、G7メモリなしでは不可能です。
19:14
つまり、5070は4090のパフォーマンスを549ドルで、そしてこれがファミリー全体です。5070から始まり、5090まで、5090は4090の2倍のパフォーマンスです。もちろん、1月から大規模な生産を開始します。
19:36
これは信じられないことですが、私たちはこれらの巨大なパフォーマンスGPUをラップトップに搭載することができました。これは5070ラップトップです。1299ドルで、この5070ラップトップは4090のパフォーマンスを持っています。ここにあるはずです。
20:00
お見せしましょう。これを見てください。ここで、ここに。ポケットはこれだけしかありません。皆さん、ジャニーン・ポールです。想像してみてください。ここにこの信じられないグラフィックスカード、Blackwellがあり、それを縮小してそこに入れるのです。
20:24
それは理にかなっているでしょうか?人工知能なしではできません。その理由は、私たちが生成を行い、大量のデータを生成しているからで、テンソルコアを使用して大量のピクセルを生成しているからです。
20:35
つまり、必要なピクセルだけをレイトレースし、人工知能を使用して他のすべてのピクセルを生成しています。その結果、エネルギー効率は驚異的です。コンピュータグラフィックスの未来はニューラルレンダリング、人工知能とコンピュータグラフィックスの融合です。
20:53
そしてさらに驚くべきことは...はい、どうぞ。ありがとうございます。これは予想以上にダイナミックな基調講演になっています。そして本当に驚くべきことは、ここに搭載するGPUファミリーです。5090は薄型ラップトップに搭載されます。
21:14
先ほどのラップトップは14.9ミリメートルでした。5080、5070 Ti、5070があります。はい、皆様、RTX Blackwellファミリーの紹介でした。GeForceはAIを世界にもたらし、AIを民主化しました。今やAIが戻ってきてGeForceを革新しています。
AIのスケーリングと計算能力 (21:47-31:20)
スケーリング則の説明
計算要件の増大
Blackwellシステムの詳細
21:47
人工知能について話しましょう。NVIDIAのどこか別の場所に行きましょう。これは文字通り私たちのオフィスです。これは文字通り NVIDIAの本社です。さて、AIについて話しましょう。業界は人工知能のスケーリングを追求し、競争しています。
22:16
そしてスケーリング則は強力なモデルです。これは研究者や産業界が数世代にわたって観察し、実証してきた経験則です。スケーリング則は...より多くのデータ、つまりトレーニングデータを持ち、より大きなモデルを持ち、より多くの計算能力を適用すればするほど、モデルはより効果的に、より能力を持つようになると述べています。
22:47
そしてスケーリング則は続いています。本当に驚くべきことは、もちろん今、インターネットは昨年の2倍のデータを毎年生成しているということです。
23:00
私は、今後数年で、人類は史上最初から人類が生み出してきたすべてのデータよりも多くのデータを生成すると思います。そして私たちは依然として巨大な量のデータを生成しており、それはマルチモーダルになっています。ビデオ、画像、音声です。
23:18
そのすべてのデータは、AIの基本的な知識、基盤となる知識を訓練するために使用することができます。しかし、実際には、新たに2つのスケーリング則が出現しています。そしてそれはある程度直感的です。
23:33
2番目のスケーリング則は、トレーニング後のスケーリング則です。トレーニング後のスケーリング則は、強化学習や人間からのフィードバックなどの技術を使用します。基本的に、AIは人間の質問に基づいて回答を生成します。
23:50
人間はもちろんフィードバックを与えます。実際にはそれよりもずっと複雑です。しかし、かなりの数の高品質なプロンプトを持つその強化学習システムにより、AIはスキルを洗練させます。
24:05
特定の領域のスキルを微調整することができます。数学の問題を解くのが上手くなったり、推論が上手くなったりします。そしてそれは本質的に、学校を卒業した後にメンターやコーチからフィードバックをもらうようなものです。
24:21
そしてテストを受け、フィードバックを受け、自己改善します。私たちはまた、AIフィードバックの強化学習も持っています。そして合成データ生成も持っています。これらの技術は、いわば自己練習に似ています。
24:38
特定の問題の答えを知っています。そして正解にたどり着くまで試し続けます。そしてAIは、機能的に検証可能な非常に複雑で難しい問題を提示されることがあります。
24:52
そして私たちが理解している答えがあります。おそらく定理の証明かもしれません。おそらく幾何学の問題を解くことかもしれません。そしてこれらの問題によって、AIは回答を生成し、強化学習を使用して自己改善の方法を学習します。
25:08
これがポストトレーニングと呼ばれるものです。ポストトレーニングには膨大な計算量が必要です。しかし最終的な結果は信じられないモデルを生み出します。私たちは今、3番目のスケーリング則を持っています。そしてこの3番目のスケーリング則はテストタイムスケーリングと呼ばれるものに関係しています。
25:24
テストタイムスケーリングは基本的に、AIが使用されているとき、AIを使用しているときのことです。AIはパラメータを改善する代わりに、生成したい回答を生成するためにどれだけの計算を使用するかを決定することに焦点を当てる能力を持っています。
25:47
推論はこれを考える1つの方法です。長時間の思考はこれを考える方法です。直接的な推論や一発回答の代わりに、それについて推論するかもしれません。問題を複数のステップに分解するかもしれません。
26:00
複数のアイデアを生成し、あなたのAIシステムが生成したアイデアのうちどれが最良かを評価するかもしれません。おそらく段階的に問題を解決するなど、そういったことです。
26:13
そして今やテストタイムスケーリングは非常に効果的であることが証明されています。技術の順序と、これらすべてのスケーリング則の出現を、chat GPTからO1、O3への信じられない成果を見ながら観察しています。
26:31
そして現在のGemini Proまで、これらすべてのシステムは事前トレーニングからポストトレーニング、そしてテストタイムスケーリングへと段階的に進んでいます。さて、もちろん私たちが必要とする計算量は信じられないほどです。
26:45
そして実際、私たちは社会がより多くの斬新で優れた知能を生み出すために必要な計算量をスケールする能力を持つことを望んでいます。もちろん、知能は私たちが持つ最も価値のある資産であり、多くの困難な問題を解決するために適用することができます。
27:03
そして、スケーリング則です。これはNVIDIAのコンピューティングに対する巨大な需要を引き起こしています。Blackwellと呼ばれるこの信じられないチップに対する巨大な需要を引き起こしています。Blackwellを見てみましょう。さて、Blackwellは本格的な生産に入っています。
27:21
その姿は信じられないものです。まず、いくつかの - すべてのクラウドサービスプロバイダーが現在システムを稼働させています。約15のコンピュータメーカーからシステムがここにあります。約200の異なるSKU、200の異なる構成で製造されています。
27:44
液冷式、空冷式、x86、NVIDIA Gray CPUバージョン、NVLink 36x2、NVLink 72x1、世界中のほぼすべてのデータセンターに対応できるよう、さまざまな種類のシステムがあります。
27:59
これらのシステムは現在、45の工場で製造されています。人工知能がいかに普及し、業界がこの新しいコンピューティングモデルの人工知能にどれだけ飛びついているかを示しています。
28:16
さて、私たちがそれをそれほど強く推進している理由は、より多くの計算が必要だからです。そしてそれは非常に明確です - 非常に明確です - ジャニーン?ありがとう。知っての通り、暗い場所に手を入れるのは難しいものです。
28:46
ちょっと待ってください。これは良いアイデアでしょうか?いいでしょう。待ってください。待ってください。私は価値があると思っていました。明らかに若いほうは私に価値があると思っていませんでした。さて、これは私のショー・アンド・テルです。これはショー・アンド・テルです。
29:32
このNVLinkシステム、これ、このNVLinkシステム、これはGB200 NVLink 72です。これは1トンと2トン、60万個のパーツ、約20台の車に相当、120キロワットです。背後にはすべてのGPUを接続するスパインがあり、2マイルの銅ケーブル、5,000本のケーブルがあります。
30:11
これは世界中の45の工場で製造されています。私たちはそれらを構築し、液冷し、テストし、分解して、データセンターに部品として出荷します。なぜなら、1トンと2トンあるからです。
30:27
データセンターの外で再組み立てをして設置します。製造は信じられないものです。しかしこれらすべての目的は、スケーリング則が計算を非常に強く推進しているため、このレベルの計算、Blackwellは前世代と比較してワットあたりの性能を4倍向上させています。
30:47
ワットあたりの性能が4倍、ドルあたりの性能が3倍です。つまり、1世代で、これらのモデルのトレーニングコストを3分の1に削減したということです。あるいは、モデルのサイズを3倍に増やしたい場合、コストはほぼ同じです。
31:06
しかし重要なことは次のとおりです。これらは私たち全員がchat GPTを使用したり、Geminiを使用したり、将来的に私たちの電話を使用したりする際に使用されるトークンを生成しています。これらのアプリケーションのほぼすべてがこれらのAIトークンを消費することになります。
エージェントAI (31:20-44:09)
エージェントAIの概念説明
NVIDIA NIMSとNEMO
エンタープライズ向けソリューション
31:20
そしてこれらのAIトークンはこれらのシステムによって生成されています。そしてすべてのデータセンターは電力によって制限されています。そしてもしBlackwellのワットあたりが...前世代の4倍であれば、データセンターで生成できる収益、生成できるビジネスの量は4倍に増加します。そしてこれらのAIファクトリーシステムは今や本当の工場です。これらすべての目的は、1つの巨大なチップを作成できるようにすることです。私たちが必要とする計算量は本当に信じられないほどです。そしてこれは基本的に1つの巨大なチップです。もし私たちがこれを1つのチップとして作らなければならなかったら、申し訳ありません皆さん、それを見てください、ここのディスコライトがかっこいいでしょう。もしこれを1つのチップとして作らなければならなかったら、明らかにこれはウェハーサイズになるでしょうが、これには歩留まりの影響は含まれていません。おそらく3〜4倍のサイズが必要になるでしょう。しかし基本的に私たちがここに持っているのは72個のBlackwell GPUまたは144個のダイです。このチップ1つで1.4エクサフロップスです。
32:31
世界最大のスーパーコンピュータ、最速のスーパーコンピュータは、最近になってようやく、この部屋全体のスーパーコンピュータでエクサフロップス以上を達成しました。これは1.4エクサフロップスのAI浮動小数点演算性能です。14テラバイトのメモリを搭載していますが、驚くべきことがあります。
32:48
メモリ帯域幅は1.2ペタバイト/秒です。これは基本的に、現在発生している世界中のインターネットトラフィック全体と同等です。世界中のインターネットトラフィック全体がこれらのチップを通じて処理されています。
33:07
そして合計で130兆トランジスタ、2,592個のCPUコア、大量のネットワーキングを搭載しています。そして、これらが、私ができればいいのですが、できそうにありません。これらはブラックウェルです。これらは私たちのConnectXネットワーキングチップです。
33:31
これらはNVLink、そしてNVLinkスパインについて説明しようとしていますが、それは不可能です。そしてこれらはすべてHBMメモリ、14テラバイトのHBMメモリです。これが私たちがやろうとしていることであり、これが奇跡です、これがブラックウォールシステムの奇跡です。
33:50
ここにあるブラックウォールダイです。これは世界で最も大きな単一チップですが、さらに奇跡的なことは、これが最高のブラックウォールシステムだということです。さて、これらすべての目的は、もちろん、私たちが...ありがとう、OK?
34:25
Michelob Ultraを1本いただけますか?ありがとうございます。ありがとうございます。なぜMichelob Ultraスタジアムにいるのでしょうか?まるでNVIDIAに来てGPUがないようなものです。私たちは膨大な量の計算が必要です。より大きなモデルを訓練したいからです。そしてこれらの推論、これらの推論は以前は1回の推論でしたが、将来的にはAIは自分自身と対話することになります。
35:07
考え、内部で振り返り、処理を行うことになります。今日、トークンが生成される速度は、誰もが読める速度である1秒あたり20〜30トークン程度です。
35:21
しかし、将来的には、そして現在のGPT-01では、新しいGemini ProやO1、O3モデルでは、彼らは自分自身と対話し、振り返り、考えています。そして想像できるように、トークンを消費できる速度は信じられないほど高くなります。
35:42
そのため、トークンレート、トークン生成レートを大幅に上げる必要があります。同時にコストを大幅に下げる必要もあります。そうすることでサービスの品質を非常に高く保ち、顧客へのコストを低く抑え続け、AIは継続的にスケールすることができます。
35:58
これが私たちがNVLinkを作成した基本的な目的、理由です。さて、企業の世界で起きている最も重要なことの1つがエージェントAIです。エージェントAIは、基本的に、テストタイムスケーリングの完璧な例です。
36:12
AIはモデルのシステムです。その一部は理解、顧客とのやり取り、ユーザーとのやり取りです。一部は情報の検索、ストレージからの情報検索、RAGのようなセマンティックAIシステムかもしれません。
36:27
インターネットにアクセスしたり、PDFファイルを調べたりするかもしれません。そしてツールを使用したり、計算機を使用したり、チャートを生成するために生成AIを使用したりするかもしれません。
36:40
そしてそれは繰り返し、与えられた問題を段階的に分解し、これらの異なるモデル間を繰り返し処理します。将来的に顧客に応答するため、AIが応答するためには、以前は質問をして答えが出始めるだけでした。
36:55
将来は質問をすると、多くのモデルがバックグラウンドで作業することになります。そのため、推論に使用される計算量、テストタイムスケーリングは急増します。
37:07
より良い回答を求めるため、急増するのです。さて、業界がエージェントAIを構築するのを支援するために、私たちの市場アプローチは企業顧客に直接向けるものではありません。私たちの市場アプローチは、IT業界のソフトウェア開発者と協力して、新しい機能を可能にする技術を統合することです。
37:27
CUDAライブラリで行ったように、今度はAIライブラリでそれを行いたいと考えています。そして過去のコンピューティングモデルがコンピュータグラフィックスや線形代数や流体力学を行うAPIを持っていたように、将来的にはそれらの加速ライブラリの上に、CUDAの加速ライブラリの上にAIライブラリを持つことになります。
37:50
私たちは、エコシステムがエージェントAIを構築するのを支援するために3つのものを作成しました。NVIDIA NIMS、これは基本的にパッケージ化されたAIマイクロサービスです。この本当に複雑なCUDAソフトウェア、CUDA、DNN、Cutlass、またはTensorRTLM、またはTriton、またはこれらの異なる本当に複雑なソフトウェア、そしてモデル自体を取り、最適化し、コンテナに入れ、好きな場所に持って行くことができます。
38:19
そして私たちは視覚、言語理解、音声、アニメーション、デジタル生物学のためのモデルを持っています。そしてフィジカルAIのための新しい刺激的なモデルもいくつか用意しています。そしてこれらのAIモデルはすべてのクラウドで実行されます。なぜならNVIDIAのGPUが現在すべてのクラウドで利用可能だからです。
38:36
すべてのOEMで利用可能です。つまり文字通り、これらのモデルを取り、ソフトウェアパッケージに統合し、Cadenceエージェントや、ServiceNowエージェント、あるいはSAPエージェントを作成し、それを顧客に展開して、顧客が望む場所でソフトウェアを実行することができます。
38:55
次のレイヤーは、NVIDIA NEMOと呼ばれるものです。NEMOは基本的にデジタル従業員のオンボーディングとトレーニング評価システムです。将来的に、これらのAIエージェントは基本的にデジタルワークフォースとして、あなたの従業員と一緒に働き、あなたに代わって物事を行います。
39:21
そしてこれらの特別なエージェントを会社に導入する方法は、従業員をオンボーディングするのと同じように、オンボーディングすることです。そして、これらのAIエージェントがあなたの会社の言語の種類に合わせてトレーニングされるのを助けるための異なるライブラリがあります。
39:40
おそらく語彙はあなたの会社特有のものです。ビジネスプロセスは異なります。働き方が異なります。そのため、作業成果物がどのようなものであるべきかの例を与え、彼らはそれを生成しようとし、フィードバックを与えます。
39:52
そして評価を行い、そのようなことを行います。そしてガードレールを設定します。これらは許可されていないことです。これらは言ってはいけないことです。そして特定の情報へのアクセスも与えます。
40:05
そのパイプライン全体、デジタル従業員パイプラインがNEMOと呼ばれています。多くの意味で、すべての会社のIT部門は将来的にAIエージェントのHR部門になるでしょう。今日、彼らはIT業界からの多くのソフトウェアを管理・維持しています。
40:26
将来的には、多くのデジタルエージェントを維持し、育成し、オンボーディングし、改善し、会社が使用するために提供します。そしてあなたのIT部門は一種のAIエージェントHRのようになるでしょう。
40:41
その上に、私たちはエコシステムが活用できる多くのブループリントを提供しています。これらはすべて完全にオープンソースです。そのため、ブループリントを取得して修正することができます。私たちはさまざまな種類のエージェントのためのブループリントを持っています。
40:56
さて、本日私たちは本当にクールで賢いと思われる何かを発表します。LAMAをベースにしたモデル全体のファミリー、NVIDIA LAMA NemoTronランゲージファウンデーションモデルを発表します。
41:12
LAMA 3.1は完全な現象です。MetaからのLAMA 3.1のダウンロードは65万回ほどです。それは派生され、約6万の他の異なるモデルに変換されています。これは単独で、ほぼすべての企業がAIの作業を開始する理由となっています。
41:40
さて、私たちが気づいたことは、llamaモデルは実際に企業利用のためにより良く微調整できるということでした。そこで私たちの専門知識と能力を使用して微調整し、llama nemo-tronモデルスイートのオープンモデルに変換しました。
41:57
非常に速い応答時間の小さなモデル、極めて小さなものがあります。私たちが呼ぶsuper llama nemo-tronスーパーです。これらは基本的にモデルのメインストリームバージョンです。またはウルトラモデル、ウルトラモデルは他の多くのモデルの教師モデルとして使用できます。
42:18
報酬モデル、評価者、他のモデルが答えを作成し、それが良い答えかどうかを判断するための判定者になることができます。基本的に他のモデルにフィードバックを与えます。多くの異なる方法で蒸留することができます。
42:31
基本的に教師モデル、知識蒸留モデルです。非常に大きく、非常に能力があります。そしてこれらすべてが現在オンラインで利用可能です。さて、これらのモデルは信じられないものです。チャットのリーダーボード、指示のリーダーボード、検索のリーダーボードで1位です。
42:54
世界中のAIエージェントで使用される異なる種類の機能に必要な、これらは素晴らしいモデルになるでしょう。私たちはまたエコシステムと協力しています。すべてのNVIDIA AI技術はIT業界に統合されています。
43:12
ServiceNow、SAP、産業用AIのSiemensで素晴らしいパートナーと本当に素晴らしい仕事が行われています。Cadenceは素晴らしい仕事をしており、Officeも素晴らしい仕事をしています。Perplexityとの仕事を本当に誇りに思っています。ご存知の通りです。
43:26
彼らは検索を革新しました。本当に素晴らしいものです。Codium、世界中のすべてのソフトウェアエンジニア、これが次の巨大なAIアプリケーションになるでしょう。次の巨大なAIサービスになるでしょう。ソフトウェアコーディングです。
43:42
世界中に3,000万人のソフトウェアエンジニアがおり、誰もがコーディングを助けるソフトウェアアシスタントを持つことになるでしょう。もしそうでなければ、明らかにあなたははるかに生産性が低く、より良くないコードを作成することになります。
43:56
そしてこれは3,000万人です。世界には10億人のナレッジワーカーがいます。AIエージェントがおそらく次のロボティクス産業になり、複数兆ドルの機会になる可能性が非常に明確です。
NVIDIA Cosmos: 世界基礎モデル (44:09-59:31)
物理AIの概念
Cosmosの機能と特徴
Omniverseとの統合
44:09
さて、私たちが作成したブループリントのいくつかと、これらのAIエージェントでパートナーと行った作業の一部をお見せしましょう。AIエージェントは新しいデジタルワークフォースであり、私たちのために、そして私たちと共に働きます。
44:28
AIエージェントはミッションについて推論し、それをタスクに分解し、データを取得したりツールを使用したりして質の高い応答を生成するモデルのシステムです。NVIDIAのエージェントAIビルディングブロック、NIMPの事前トレーニングモデル、NEEMOフレームワークにより、組織は簡単にAIエージェントを開発し、どこにでも展開することができます。
44:51
私たちは従業員と同じように、会社の方法についてエージェントワークフォースをオンボーディングし、トレーニングします。AIエージェントはドメイン固有のタスクエキスパートです。4つの例をお見せしましょう。何十億人ものナレッジワーカーと学生のために、AIリサーチアシスタントエージェントは講義、ジャーナル、財務結果などの複雑な文書を取り込み、簡単な学習のためのインタラクティブなポッドキャストを生成します。
45:19
UNET回帰モデルと拡散モデルを組み合わせることで、CORDIFは全球気象予報を25キロメートルから2キロメートルにダウンスケールすることができます。NVIDIAのような開発者は、ソフトウェアの脆弱性を継続的にスキャンし、必要なアクションを開発者に警告するソフトウェアセキュリティAIエージェントを管理します。
45:41
バーチャルラボAIエージェントは、研究者が何十億もの化合物を設計・スクリーニングし、有望な薬剤候補をこれまでになく速く見つけることを支援します。NVIDIA AnalyticsAIエージェントは、NVIDIA Metropolisブループリントを基に構築され、NVIDIA CosmosのNIMATRONビジョン言語モデル、LAMA NIMATRON LLM、NEEMO Retrieverを含みます。
46:05
Metropolisエージェントは、1日あたり10万ペタバイトのビデオを生成する数十億台のカメラからのコンテンツを分析します。対話的な検索、要約、自動レポートを可能にし、交通流を監視して渋滞や危険を警告します。
46:27
産業施設では、プロセスを監視し、改善のための推奨事項を生成します。Metropolisエージェントは数百台のカメラからのデータを集中管理し、事故が発生した際に作業員やロボットの経路を変更することができます。
46:44
エージェントAIの時代が、すべての組織にとって到来しています。はい、これは野球の試合での最初の投球でした。これは生成されたものではありません。私は皆さんが感心していないように感じました。さて、AIはクラウドで、クラウドのために作られました。
47:11
はい、それはクラウドで作られ、クラウドのために作られました。そして携帯電話でAIを楽しむのに、もちろん完璧です。非常に近い将来、私たちは継続的なAIを持つことになり、それはあなたと共にあり、そしてそれらのメタグラスを使用するとき、もちろん何かを指さしたり見たりして、欲しい情報を尋ねることができ、AIはクラウドで完璧です。クラウドで作られ、クラウドで完璧です。
47:35
しかし、私たちはそのAIをどこにでも持って行けるようにしたいと考えています。すでに言及したように、Nvidia AIを任意のクラウドに持って行くことができますが、あなたの会社内に設置することもできます。しかし私たちが何よりもしたいのは、PCにも搭載することです。
47:49
そしてご存知の通り、Windows 95はコンピュータ産業に革命を起こし、この新しいマルチメディアサービスを可能にし、アプリケーションの作成方法を永遠に変えました。Windows 95、このコンピューティングモデルはもちろんAIには完璧ではありません。そのため、私たちが将来的にしたいのは、あなたのAIを基本的にあなたのAIアシスタントにすることです。そして3D APIやサウンドAPI、ビデオAPIだけでなく、3Dのための生成APIや言語のための生成AI、音のための生成AIなどを持つことです。
48:28
そして私たちは、クラウドの巨大な投資を活用しながら、それを可能にするシステムが必要です。世界がAIモデルのプログラミングの新しい方法をさらに作り出すことはできません。それは起こりえません。そしてもし私たちがWindowsのPCを...
48:49
世界クラスのAI PCにする方法を見つけることができれば、それは完全に素晴らしいことになるでしょう。そしてその答えはWindowsであることが判明しました。それはWindows WSL 2です。Windows WSL 2は基本的に1つの中に2つのオペレーティングシステムがあり、完璧に動作します。開発者のために開発され、開発されています。
49:11
ベアメタルへのアクセスが可能で、WSL 2はクラウドネイティブアプリケーション向けに最適化されています。そして非常に重要なことに、CUDAのために最適化されています。そしてWSL2はすぐにCUDAを完璧にサポートしています。
49:29
その結果、NVIDIA NIMS、NVIDIA NEEMO、ai.nvidia.comにアップロードされる予定のブループリントで私がお見せしたすべてのものは、コンピュータに適合する限り、モデルが収まる限り、ビジョンモデルや言語モデル、音声モデル、これらのアニメーション、人間、デジタルヒューマンモデルなど、PCに完璧な様々な種類のモデルを持つことになります。
50:03
そしてダウンロードすれば、そのまま動作するはずです。そして私たちの焦点は、Windows WSL2、Windows PCを、私たちが生きている限りサポートし、維持する一流のプラットフォームにすることです。これは世界中のエンジニアと開発者にとって信じられないことです。
50:24
あなたのために作ったブループリントの一例をお見せしましょう。生成AIは単純なテキストプロンプトから驚くべき画像を合成します。しかし、画像の構成は言葉だけでは制御が難しい場合があります。
50:41
NVIDIA NIMマイクロサービスを使用することで、クリエイターは簡単な3Dオブジェクトを使用してAI画像生成をガイドすることができます。コンセプトアーティストがこの技術を使用してシーンの外観を開発する方法を見てみましょう。まず、手作りまたはAIで生成された3Dアセットを配置することから始めます。
51:00
次に、Fluxなどの画像生成NIMを使用して、3Dシーンに従った視覚的なものを作成します。構図を洗練させるためにオブジェクトを追加したり移動したりします。完璧なショットをフレーミングするためにカメラアングルを変更します。または新しいプロンプトで全シーンを再想像します。
51:24
生成AIとNVIDIA NIMに支援されて、アーティストは素早く自分のビジョンを実現することができます。あなたのPCのためのNVIDIA AI。世界中に何億台ものWindowsのPCがあり、私たちはそれらをAIに対応させることができます。
51:44
OEM、私たちが協力しているすべてのPC OEM、基本的に世界をリードするすべてのPC OEMが、このスタックに対応するようPCを準備します。そしてAI PCがあなたの近くの家にやってきます。Linuxは良いですね。ありがとうございます。
52:08
さて、フィジカルAIについて話しましょう。Linuxと言えば、フィジカルAIについて話しましょう。さて、フィジカルAI。想像してください。大規模言語モデルでは、左側にコンテキストとプロンプトを与え、一度に1つのトークンを生成して出力を生成します。
52:37
基本的にはそのように動作します。驚くべきことに、この中間のモデルはかなり大きく、数十億のパラメータを持っています。コンテキスト長は信じられないほど大きいです。なぜなら、PDFを読み込むことを決定するかもしれないからです。私の場合、質問をする前に複数のPDFを読み込むかもしれません。
52:55
それらのPDFはトークンに変換されます。トランスフォーマーの基本的な注意特性は、すべてのトークンが他のすべてのトークンとの関係と関連性を見出すことです。そのため、数十万のトークンを持つことができ、計算負荷は二次関数的に増加し、これを行います。
53:17
すべてのパラメータ、すべての入力シーケンスをトランスフォーマーの各層を通して処理し、1つのトークンを生成します。これが私たちがブラックウェルを必要とする理由であり、現在のトークンが完了すると次のトークンが生成され、現在のトークンを入力シーケンスに入れ、そのすべてを取って次のトークンを生成します。
53:37
一度に1つずつ行います。これがトランスフォーマーモデルであり、それが計算的に非常に効果的である理由です。PDFsの代わりにあなたの周囲の環境で、プロンプトの質問の代わりにそこに行ってそのボックスを拾って戻ってくるような要求で、生成されるトークンがテキストではなくアクショントークンだったらどうでしょうか。
54:01
私が今説明したのは、ロボティクスの未来にとって非常に理にかかっていることです。そしてその技術はすぐそこまで来ていますが、私たちが必要なのは効果的に世界モデルを作成することです。
54:21
つまり、GPTが言語モデルであるのに対し、この世界モデルは世界の言語を理解する必要があります。物理的な動力学を理解する必要があります。重力や摩擦、慣性のようなものです。幾何学的および空間的な関係を理解する必要があります。原因と結果を理解する必要があります。何かを落とすと床に落ちる、突くと倒れる、そしてオブジェクトの永続性を理解する必要があります。
54:48
ボールをキッチンカウンターの上で転がすと、反対側に行くとボールは別の量子宇宙に行ったのではなく、まだそこにあります。そしてこれらすべての種類の理解は、今日のほとんどのモデルが非常に苦手とする直感的な理解であり、私たちは世界を創造したいと考えています。世界の基礎モデルが必要です。今日、私たちは非常に大きなことを発表します。
55:11
NVIDIA Cosmosを発表します。物理的な世界を理解するために設計され、作成された世界基礎モデルです。そしてこれを本当に理解する唯一の方法は、それを見ることです。再生してください。
55:32
AIの次のフロンティアはフィジカルAIです。モデルのパフォーマンスはデータの可用性に直接関係しますが、物理世界のデータは捕捉、キュレーション、ラベル付けにコストがかかります。NVIDIA CosmosはフィジカルAIを進歩させるための世界基礎モデル開発プラットフォームです。
55:53
自己回帰型世界基礎モデル、拡散ベースの世界基礎モデル、高度なトークナイザー、NVIDIA CUDA、そしてAIで加速されたデータパイプラインが含まれています。Cosmosモデルはテキスト、画像、またはビデオプロンプトを取り込み、仮想世界の状態をビデオとして生成します。
56:15
Cosmosの生成は、自律走行車やロボティクスのユースケースに特有の要件、例えば実世界の環境、照明、オブジェクトの永続性を優先します。開発者はNVIDIA Omniverseを使用して物理ベースの地理空間的に正確なシナリオを構築し、それをCosmosに出力して写実的で物理ベースの合成データを生成します。
56:51
多様なオブジェクトや環境、天候や時間帯などの条件、エッジケースシナリオなど、開発者はCosmosを使用して強化学習AIフィードバックのための世界を生成し、ポリシーモデルを改善したり、マルチセンサービューにわたってモデルのパフォーマンスをテストおよび検証したりします。
57:22
Cosmosはリアルタイムでトークンを生成でき、AIモデルに予見と多元宇宙シミュレーションの力をもたらし、正しい経路を選択するのを助けるためにあらゆる可能な未来を生成します。世界の開発者エコシステムと協力して、NVIDIAはフィジカルAIの次の波を進歩させることを支援しています。
57:48
NVIDIA Cosmos、世界初の世界基礎モデルです。2,000万時間のビデオでトレーニングされています。2,000万時間のビデオは物理的、動的な事物に焦点を当てています。ダイナミックな自然のテーマ、歩く人々、動く手、物を操作すること、素早いカメラの動きなどです。
58:23
これは本当にAIに創造的なコンテンツを生成することを教えるのではなく、物理的な世界を理解することを教えることについてです。そしてこのフィジカルAIにより、結果として多くのダウンストリームの事柄を行うことができます。
58:38
モデルをトレーニングするための合成データ生成を行うことができます。それを蒸留してロボティクスモデルの種、始まりに効果的に変えることができます。それに物理ベースの、物理的に妥当な将来のシナリオを複数生成させることができ、基本的にドクター・ストレンジを行うことができます。
58:57
このモデルは物理的世界を理解しているため、もちろん、生成された多くの画像を見ましたが、この物理的世界を理解するモデルはまた、もちろんキャプション付けも行うことができます。
59:10
そしてビデオのキャプション付けを非常に上手く行い、そのビデオのキャプション付けは大規模言語モデル、マルチモダリティ大規模言語モデルをトレーニングするために使用することができます。そしてこの技術を使って、この基礎モデルを使ってロボットと大規模言語モデルの両方をトレーニングすることができます。
自動運転技術 (59:31-1:15:57)
自動車産業におけるAI
THORプロセッサーの発表
トヨタとの提携発表
59:55
これがNVIDIA Cosmosです。このプラットフォームにはリアルタイムアプリケーション用の自己回帰モデル、非常に高品質な画像生成用の拡散モデル、実世界の語彙を学習する驚くべきトークナイザー、そしてもし自分のデータでトレーニングしたい場合のためのデータパイプラインがあります。
01:00:06
そして、膨大なデータが関係するため、私たちはエンドツーエンドですべてを加速化しました。これは世界初のCUDAで加速され、AIで加速されたデータ処理パイプラインです。これらすべてがCosmosプラットフォームの一部です。
01:00:33
そして本日、Cosmosがオープンライセンスであることを発表します。GitHubで公開されています。私たちはこの瞬間が、そして非常に速いモデル、メインストリームモデル、そして知識移転モデル、基本的に知識移転モデルのための小、中、大があり、
01:00:50
Cosmos世界基礎モデルがオープンになることで、LAMA3が企業AIに対して行ったことを、ロボティクスと産業AIの世界に対しても行うことを本当に期待しています。魔法は、CosmosをOmniverseに接続したときに起こります。
01:01:07
その根本的な理由は次のとおりです。Omniverseは物理的に基づいています。物理的に基づいているのではなく、物理的に基づいています。それはアルゴリズム的な物理、原理に基づいた物理シミュレーションに基づいたシステムです。これはシミュレーターです。
01:01:30
それをCosmosに接続すると、真実の基盤、そしてOsmos生成を制御し条件付けできる真実の基盤を提供します。その結果、Osmosから出てくるものは真実に基づいています。これは、大規模言語モデルをRAG(検索拡張生成システム)に接続するのとまったく同じ考え方です。
01:01:48
AIの生成を真実に基づかせたいのです。そしてこの2つの組み合わせにより、物理的にシミュレートされた、物理的に基づいた多元宇宙ジェネレーターが得られます。そしてアプリケーション、ユースケースは本当にエキサイティングです。
01:02:09
そしてもちろん、ロボティクス、産業用アプリケーションにとっては非常に明確です。このOsmosとCosmosは、ロボットシステムを構築するために必要な3番目のコンピューターを表しています。すべてのロボティクス企業は最終的に3つのコンピューターを構築する必要があります。
01:02:22
ロボットシステムは工場かもしれませんし、自動車かもしれませんし、ロボットかもしれません。3つの基本的なコンピューターが必要です。1つのコンピューターはもちろんAIをトレーニングするためのものです。私たちはそれをDGXコンピューターと呼んでいます。
01:02:38
もう1つはもちろん、完了後にAIを展開するためのものです。それをAGXと呼びます。それは車やロボットの中、またはAMRやスタジアムなどの中にあります。これらのコンピューターはエッジにあり、自律的です。
01:02:56
しかし2つを接続するには、デジタルツインが必要です。これがあなたが見ていたすべてのシミュレーションです。デジタルツインは、トレーニングされたAIが練習し、洗練され、合成データ生成、強化学習、AIフィードバックなどを行う場所です。
01:03:10
そしてそれはAIのデジタルツインです。これら3つのコンピューターは対話的に動作することになります。産業界に対するNVIDIAの戦略、そして私たちはこれについてしばらく話してきましたが、この3つのコンピューターシステムです。
01:03:35
3体問題の代わりに、私たちは3つのコンピューターソリューションを持っています。そしてそれがNVIDIAのロボティクスです。3つの例を挙げさせてください。最初の例は、これらすべてを産業のデジタル化にどのように適用するかです。
01:03:51
何百万もの工場、何十万もの倉庫があります。これは基本的に50兆ドルの製造業の基盤です。そのすべてがソフトウェア定義になる必要があります。すべてが将来的に自動化を持つ必要があります。
01:04:09
そしてそのすべてにロボティクスが組み込まれることになります。私たちは世界をリードする倉庫自動化ソリューションプロバイダーであるKeyon、そして世界最大のプロフェッショナルサービスプロバイダーであり、デジタル製造に大きな焦点を持つAccentureと提携しています。
01:04:54
サプライチェーンソリューション企業のKeyon、グローバルなプロフェッショナルサービスのリーダーであるAccenture、そしてNVIDIAは、1兆ドルの倉庫・配送センター市場にフィジカルAIをもたらしています。高性能な倉庫物流の管理には、絶えず変化する変数の影響を受ける複雑な意思決定の網を扱う必要があります。
01:05:17
これには日々の需要変動や季節的な変動、スペースの制約、労働力の利用可能性、そして多様なロボットシステムや自動化システムの統合が含まれます。そして現在、物理的な倉庫の運用KPIを予測することはほぼ不可能です。
01:05:35
これらの課題に取り組むため、Keyonはロボットフリートのテストと最適化のためのNVIDIA OmniverseのブループリントであるMegaを採用しています。まず、Keyonの倉庫管理ソリューションは、バッファー位置からシャトル保管ソリューションへの荷物の移動など、デジタルツイン内の産業用AIブレインにタスクを割り当てます。
01:05:58
ロボットのブレインは、CAD、ビデオ、画像から3D、ライダーからポイントクラウド、そしてAI生成データを集約するためのオープンUSDコネクターを使用してOmniverseにデジタル化された物理的倉庫のシミュレーション内にあります。
01:06:15
ロボットのフリートは、Omniverseデジタルツイン環境を認識し、推論し、次の動きを計画し、行動することでタスクを実行します。ロボットのブレインはセンサーシミュレーションを通じて結果の状態を見て、次のアクションを決定することができます。
01:06:32
ループは続き、その間、Megaはデジタルツイン内のすべての状態を正確に追跡します。これにより、Keyonは実際の倉庫に変更を展開する前に、スループット、効率性、利用率などの運用KPIを測定しながら、無限のシナリオを大規模にシミュレーションできます。
01:06:52
NVIDIAと共に、KeyonとAccentureは産業用自律性を再発明しています。これは信じられないものです。すべてがシミュレーション内にあります。将来的には、将来的には、すべての工場がデジタルツインを持つことになります。
01:07:12
そしてそのデジタルツインは実際の工場とまったく同じように動作します。そして実際、OmniverseとCosmosを使用して多くの将来のシナリオを生成することができ、そしてAIがどのシナリオが任意のKPIに対して最適かを決定します。
01:07:28
そしてそれが、実際の工場に展開されるAIのプログラミング制約、プログラムとなります。次の例は自律走行車です。長年の後、自律走行車革命が到来しました。
01:07:42
WaymoとTeslaの成功により、自律走行車が最終的に到来したことは非常に明確です。さて、この業界への私たちの提供は3つのコンピューター、トレーニングシステム、AIのトレーニング、シミュレーションシステム、そして合成データ生成システム、Omniverseそして現在のCosmos、そして車の中のコンピューターです。
01:08:05
各自動車会社は異なる方法で私たちと協力し、1つか2つ、または3つのコンピューターを使用するかもしれません。私たちは世界中のほぼすべての主要な自動車会社と協力しています。Waymo、Zoox、そしてもちろんTesla、そして彼らのデータセンター、世界最大のEV企業BYD。
01:08:21
JLRは本当にクールな車を出す予定です。メルセデスは今年から生産を開始し、NVIDIAと共に車のフリートを展開します。そして私は本日、トヨタとNVIDIAが次世代の自律走行車を作るためにパートナーシップを結ぶことを発表できることを非常に嬉しく思います。
01:08:43
本当に多くの、多くのクールな企業があります。LucidとRivianとXiaomi、そしてもちろんVolvo、本当に多くの異なる企業があります。Wabiは自動運転トラックを構築しています。Aurora、私たちは今週、Auroraも自動運転トラックを構築するためにNVIDIAを使用することを発表しました。
01:09:01
自律走行、毎年1億台の車が製造され、世界中の道路には10億台の車両があり、世界中で毎年1兆マイルが走行されています。それらすべてが近い将来、高度に自律的または完全に自律的になります。
01:09:19
そしてこれは非常に大きな産業になるでしょう。私はこれが最初の複数兆ドルのロボティクス産業になる可能性が高いと予測しています。この私たちのビジネスは、世界に登場し始めているこれらの車のわずか数台でも、すでに40億ドルであり、今年はおそらく約50億ドルの年間売上ペースになります。
01:09:40
つまり、すでにかなり重要なビジネスです。これは非常に大きくなるでしょう。さて、本日私たちは、車用の次世代プロセッサー、車用の次世代コンピューターをTHORと呼ぶことを発表します。
01:09:52
ここに1つ持っています。ちょっと待ってください。これがTHORです。これがTHORです。これはロボティクスコンピューターです。これはロボティクスコンピューターです。センサー、とてつもない量のセンサー情報を取り込み、処理します。
01:10:16
無数のカメラ、高解像度、レーダー、ライダー、それらすべてがこのチップに入力されます。そしてこのチップはそのすべてのセンサーを処理し、トークンに変換し、トランスフォーマーに入力し、次の経路を予測する必要があります。
01:10:31
そしてこの自律走行車用コンピューターは現在本格的な生産に入っています。THORは、今日の自律走行車の標準となっている前世代のOrenの20倍の処理能力を持っています。そしてこれは本当に信じられないものです。
01:10:47
THORは本格的な生産に入っています。このロボティクスプロセッサーは、ちなみに完全なロボットにも搭載されます。つまりAMRかもしれませんし、人型ロボットかもしれませんし、脳になるかもしれませんし、マニピュレーターになるかもしれません。
01:10:59
このプロセッサーは基本的にユニバーサルなロボティクスコンピューターです。私たちのドライブシステムの2番目の部分で、私が非常に誇りに思っているのは安全性への献身です。DriveOSについて、私は発表できることを嬉しく思います。これは現在、自動車の機能安全性の最高基準であるASIL-Dまで認証された最初のソフトウェア定義プログラマブルAIコンピューターです。唯一かつ最高のものです。
01:11:32
そして私はこれを本当に誇りに思っています。ASIL-D ISO 26262、これは約15,000エンジニア年の作業です。これは本当に驚異的な仕事です。その結果として、CUDAは現在機能的に安全なコンピューターとなりました。
01:11:50
そしてロボットを構築している場合、NVIDIA CUDA、はい。さて、先ほど自律運転車の文脈でOmniverseとCosmosをどのように使用するかお見せすると言いました。今日は、道路を走る車の動画をたくさんお見せする代わりに、その一部もお見せしますが。
01:12:17
AIを使用してデジタルツインを自動的に再構築し、その能力を使って将来のAIモデルをトレーニングする方法をお見せしたいと思います。では再生してください。自律運転車革命が到来しました。
01:12:38
すべてのロボットと同様に自律運転車の構築には3つのコンピューターが必要です。AIモデルをトレーニングするNVIDIA DGX、テストドライブと合成データを生成するOmniverse、そして車内のスーパーコンピューターであるドライブAGXです。安全な自律運転車を構築するには、エッジケースに対応する必要がありますが、実世界のデータは限られているため、トレーニングには合成データが不可欠です。
01:13:07
NVIDIA OmniverseとAIモデル、Cosmosによって動作する自律運転車データファクトリーは、トレーニングデータを桁違いに強化する合成運転シナリオを生成します。まず、OmniMapは地図と地理空間データを融合して運転可能な3D環境を構築します。
01:13:32
運転シナリオのバリエーションは、ドライブログの再生やAIトラフィックジェネレーターから生成できます。次に、ニューラル再構築エンジンは自律運転車のセンサーログを使用して高忠実度の4Dシミュレーション環境を作成します。
01:13:49
3Dで以前のドライブを再生し、トレーニングデータを増強するためのシナリオバリエーションを生成します。最後に、edify 3DSは既存のアセットライブラリを自動的に検索するか、新しいアセットを生成してシミュレーション対応のシーンを作成します。
01:14:11
omniverseのシナリオはCosmosを条件付けして大量の写実的なデータを生成し、シムからリアルのギャップを縮めるために使用されます。そしてテキストプロンプトで、運転シナリオの無限のバリエーションを生成します。
01:14:30
Cosmosの NemoTronビデオ検索により、記録されたドライブと組み合わさった大規模にスケールされた合成データセットをキュレートしてモデルをトレーニングすることができます。NVIDIAのAIデータファクトリーは数百回のドライブを数十億マイルの実効的な走行に拡大し、安全で高度な自律運転の基準を設定します。
01:14:58
私は信じられないほどです。私たちは数千回のドライブを数十億マイルに変換します。自律運転車のために山のようなトレーニングデータを持つことになります。もちろん、実際の車を道路に走らせる必要はまだあります。
01:15:17
もちろん、私たちは生きている限りデータを継続的に収集します。しかし、この多元宇宙、物理ベースの、物理的に基づいた機能を使用した合成データ生成により、物理的に基づいて正確または妥当なAIをトレーニングするためのデータを大量に生成することができます。
01:15:39
自律運転車産業は到来しました。これは信じられないほどエキサイティングな時期です。次の数年間について本当に、本当に、本当にワクワクしています。コンピュータグラフィックスが信じられないペースで革新されたように、次の数年間で自律運転車開発のペースが大幅に加速するのを目にすることになるでしょう。
ロボティクスの未来 (1:15:57-1:21:39)
一般的なロボティクスの展望
3つの重要なロボットタイプ
Isaac Grootプラットフォーム
01:15:57
次の部分はロボティクスです。人型ロボット、私の友人たちよ。一般的なロボティクスのためのchat GPTの瞬間はすぐそこまで来ています。実際、私が話してきたすべての実現技術が、次の数年間で非常に急速な飛躍、驚くべき飛躍を一般的なロボティクスで可能にするでしょう。
01:16:57
さて、一般的なロボティクスが非常に重要な理由は、トラックや車輪を持つロボットが特別な環境を必要とするのに対し、私たちが作ることができる3つのロボットは、グリーンフィールド、ブラウンフィールドの適応が完璧で、新しい環境を必要としないからです。
01:17:18
もしこれらの素晴らしいロボットを構築できれば、私たち自身が構築した世界にそのまま展開できます。これら3つのロボットとは、1つ目はエージェントロボットとエージェントAIです。情報労働者だからです。
01:17:33
オフィスにあるコンピューターに対応できる限り、素晴らしいものになります。2つ目は自律運転車です。その理由は、私たちが100年以上かけて道路と都市を構築してきたからです。
01:17:46
そして3つ目は人型ロボットです。これら3つを解決する技術があれば、これは世界が今まで見た中で最大の技術産業になるでしょう。そして私たちはロボティクスの時代がすぐそこまで来ていると考えています。
01:18:01
重要な能力は、これらのロボットをどのようにトレーニングするかです。人型ロボットの場合、模倣情報の収集は非常に難しいものです。その理由は、車の場合は単に運転するだけでよいからです。
01:18:16
私たちは常に車を運転しています。これらの人型ロボットの場合、模倣情報、人間のデモンストレーションは非常に労力のかかるものです。そのため、数百のデモンストレーション、数千の人間のデモンストレーションを取り、何らかの方法で人工知能とomniverseを使用して数百万の...
01:18:45
合成的に生成された動きを生成する賢い方法を見つける必要があります。そしてそれらの動きから、AIはタスクの実行方法を学習することができます。その方法をお見せしましょう。["A.I. Embodied Robots"] ["A.I. Embodied Robots"]世界中の開発者が次世代のフィジカルAI搭載ロボット、人型ロボットを構築しています。
01:19:13
一般目的のロボットモデルの開発には大量の実世界データが必要ですが、これを収集しキュレートするのはコストがかかります。NVIDIA Isaac Gruteはこれらの課題に取り組むため、人型ロボット開発者に4つのものを提供します:ロボット基礎モデル、データパイプライン、シミュレーションフレームワーク、そしてThorロボティクスコンピューターです。
01:19:40
模倣学習のためのNVIDIA Isaac Groot合成モーション生成ブループリントは、開発者が少数の人間のデモンストレーションから指数関数的に大きなデータセットを生成できるシミュレーションワークフローです。
01:19:56
まず、Groot Teleopにより、熟練した作業者はApple Vision Proを使用してロボットのデジタルツインにポータル接続することができます。これは、物理的なロボットがなくてもデータを収集できることを意味し、リスクのない環境でロボットを操作でき、物理的な損傷や摩耗の可能性を排除します。
01:20:18
ロボットに単一のタスクを教えるために、オペレーターは遠隔操作デモンストレーションを通じて少数のモーション軌道を取得し、次にGroot Mimicを使用してこれらの軌道をより大きなデータセットに増やします。
01:20:33
次に、ドメインランダム化と3DからリアルへのアップスケーリングのためにOmniverseとCosmosを基盤とするGroot Genを使用し、指数関数的により大きなデータセットを生成します。OmniverseとCosmosマルチバースシミュレーションエンジンは、ロボットポリシーをトレーニングするための大規模にスケールされたデータセットを提供します。
01:20:57
ポリシーがトレーニングされると、開発者は実際のロボットに展開する前にIsaac Simでソフトウェアインザループのテストと検証を実行できます。一般的なロボティクスの時代がやってきます。NVIDIA Isaac Grootによって実現されます。
01:21:18
私たちは何百万ものデータでロボットをトレーニングすることになります。NVIDIA Isaac Groot。これは私たちのプラットフォームで、ロボティクス業界に技術要素を提供し、一般的なロボティクスの開発を加速させるためのものです。
Project Digits発表 (1:21:39-1:27:10)
DGXの歴史
新型AIスーパーコンピューターの紹介
MediaTekとの協力
01:21:39
もう1つお見せしたいことがあります。これらのことは、約10年前に開始したこの信じられないプロジェクトがなければ不可能でした。社内ではProject Digitsと呼ばれていました。Deep learning、GPU、intelligence、training、system。
01:21:59
Digits。さて、発表前に私はそれをDGXに縮め、RTX、AGX、OVX、そして会社内の他のすべてのXと調和させました。そしてそれは本当に革命を起こしました。DGX1は本当に人工知能に革命を起こしました。DGX1はどこですか?
01:22:24
DGX1は人工知能に革命を起こしました。私たちがそれを構築した理由は、研究者とスタートアップが箱から出してすぐに使えるAIスーパーコンピューターを持つことを可能にしたかったからです。過去のスーパーコンピューターの構築方法を想像してください。
01:22:40
本当に自分の施設を建設し、自分のインフラストラクチャを構築し、本当にそれを存在に向けてエンジニアリングする必要がありました。そこで私たちは、研究者とスタートアップのために、文字通り箱から出してすぐに使えるAI開発用スーパーコンピューターを作りました。
01:22:55
2016年に最初の1台をOpenAIというスタートアップ企業に届け、イーロンがそこにいて、イリヤ・サスコバーがそこにいて、多くのエンジニアがそこにいて、DGX1の到着を祝いました。そして明らかにそれは人工知能とコンピューティングに革命を起こしました。
01:23:15
しかし今や人工知能はどこにでもあります。それは研究者とスタートアップのラボだけではありません。私たちは人工知能を、私が冒頭で述べたように。これは今やコンピューティングの新しい方法です。
01:23:27
これはソフトウェアを作る新しい方法です。コンピューターを道具として使用するすべてのソフトウェアエンジニア、すべてのエンジニア、すべてのクリエイティブアーティスト、すべての人がAIスーパーコンピューターを必要とするでしょう。そして私はただDGX1が小さくなることを望んでいました。
01:23:48
そして...想像してください...皆さん、私たちの...これはNVIDIAの最新のAIスーパーコンピューターです。そして現在はProject Digitsと呼ばれています。もし良い名前があれば、私たちに連絡してください。
01:24:24
これは...ここに驚くべきことがあります。これはAIスーパーコンピューターです。NVIDIAのAIスタック全体を実行します。NVIDIAのすべてのソフトウェアがこれで動作します。DGXクラウドがこれで動作します。これはどこかに置かれ...まあ、ワイヤレスか、あるいはコンピューターに接続されています。
01:24:43
もし望むならワークステーションにもなります。そしてクラウドスーパーコンピューターのようにアクセスし、到達することができ、NVIDIAのAIがそれで動作します。そしてそれはGB110と呼ばれる超秘密のチップに基づいています。私たちが作る最小のグレースブラックウェルです。
01:25:03
そして私は、まあ、皆さんに中を見せましょう。これは本当に、これは本当に、これはとてもかわいいです。そしてこれが内部のチップです。これは生産中です。
01:25:54
このCPU、グレーCPUは、世界をリードするSOC企業のMediaTekと協力してNVIDIA向けに構築されました。彼らは私たちと協力してこのCPU、CPU SOCを構築し、チップ間NVLinkでブラックウェルGPUと接続しました。そしてここにあるこの小さなものは本格的な生産に入っています。
01:26:10
このコンピューターは5月頃に利用可能になる予定です。そしてそれはあなたの元に来ます。私たちができることは本当に信じられないものです。そして、それは本当に、私は必要なのは手が多いのかポケットが多いのか考えていました。
01:26:30
さて、これが実際の見た目です。誰がこれを欲しくないでしょうか?そしてもしPC、Mac、何でも使用していれば。なぜならこれはクラウドプラットフォームだからです。デスクの上に置かれたクラウドコンピューティングプラットフォームです。
01:26:50
もし望むなら、Linuxワークステーションとしても使用できます。もしダブルdigitsが欲しければ、これが見た目です。そしてConnect Xで接続します。そしてニッケル、GPU direct、すべてが箱から出してすぐに使えます。
まとめと締めくくり (1:27:10-1:31:19)
主要発表事項の要約
今後の展望
エンディング
01:27:10
まるでスーパーコンピューターのようです。私たちのスーパーコンピューティングスタック全体が利用可能です。そしてこれがNVIDIA Project Digitsです。さて、私が話したことをまとめましょう。3つの新しいブラックウェルが生産中であることをお伝えしました。
01:27:38
グレースブラックウェルスーパーコンピューターとV-Link 72sが世界中で生産されているだけでなく、現在3つの新しいブラックウェルシステムが生産中です。1つの驚くべきAI基礎モデル、世界初のフィジカルAI基礎モデルがオープンで利用可能になり、世界のロボティクスなどの産業を活性化し、3つのロボット、エージェントAI、人型ロボット、
01:28:10
そして自律運転車に取り組んでいます。素晴らしい年でした。皆様のパートナーシップに感謝します。皆様のご来場に感謝します。昨年を振り返り、来年を展望する短いビデオを作りました。
01:28:22
再生をお願いします。あなた。これは私が初めて見るものです。これは私が初めて見るものです。これは私が初めて見るものです。素晴らしいCESを!新年おめでとうございます!
01:31:19
ありがとうございます。ありがとうございます。
#AI #NVIDIA #GeForce #Blackwell #RTX #GPU #CUDA #DLSS #テンソルコア #レイトレーシング #自律走行 #ロボット #デジタルツイン #DGX #AGX #Omniverse #Cosmos #フィジカルAI #エージェントAI #ニューラルネットワーク #トランスフォーマー #THOR #ASIL -D #WSL2 #Windows #Linux #MediaTek #コンピューティング #スーパーコンピューター #NVLink #HBM #メモリ #強化学習 #シミュレーション #合成データ #トヨタ #BYD #Tesla #Waymo #Mercedes #人工知能 #トークン #生成AI #3D #マルチモーダル #NEMO #NIMS #Isaac_Groot #CES2025 #ジェンセン・ファン