NVIDIA CES 基調講演:トヨタがNVIDIA自動運転を採用
NVIDIAのJensen Huang氏がCESで語った自動運転についてまとめました。
トヨタがNVIDIAの自動運転システムを採用したとHuang氏が発表した。
すると会場から拍手が起きました。NVIDIAの自動運転ソフトを採用するメーカーでNVIDIA公表は今まで中国メーカーとベンツでした。トヨタの採用は自動運転がEVに変わりトレンドとなるのでNVIDIAにとっては頼もしいです。
以下NVIDIAの自動運転のまとめ
自律走行車革命がここにあります。すべてのロボットと同様に、自律走行車を構築するには、3つのコンピュータが必要です。
自律走行車を構築する3つのコンピュータ
AIモデルをトレーニングするためのNVIDIA DGX、
テストドライブと合成データ生成のためのOmniverse、
そして車載スーパーコンピュータであるDRIVE AGXです。
安全な自律走行車を構築するということは、エッジケースに対処することを意味しますが、現実世界のデータは限られているため、合成データが自律走行車のデータファクトリーをトレーニングするために不可欠です。
OmniMap
まず、OmniMapは地図と地理空間データを融合して、走行可能な3D環境であるDVE(Driving Scenario Variations)を構築します。
運転シナリオのバリエーションは、リプレイされたドライブログやAIトラフィックジェネレーターから生成できます。
ニューラル再構成エンジン
自律走行車のセンサーログを使用して、高忠実度の4Dシミュレーション環境を作成します。これにより、以前の運転を3Dで再現し、トレーニングデータを増幅するためのシナリオバリエーションを生成します。
まず、自律走行車(自動運転車)は、走行中に様々なセンサー(カメラ、レーダー、LiDARなど)で周囲の情報を記録しています。これを「センサーログ」と呼びます。
「ニューラル再構成エンジン」は、過去に記録されたセンサーログを使ってリアルな4D(3次元空間+時間)のシミュレーション環境を作り出すことができます。
ポイントは過去の運転の再現ができることです。
過去に実際に車が走った時のデータ(センサーログ)を使って、その時の風景や周囲の状況を、3D空間で正確に再現します。まるで、その時の運転をもう一度見ているような感覚です。
4D環境とは 時間が含まれていることを意味します・周囲の動き(例えば、他の車の動きや歩行者の動き)も再現できます。これが4D(3D+時間)と呼ばれる理由です。
この再現された3D環境を使って、自律走行車のAIを学習させるためのデータを増やします。ただ過去の運転を再現するだけでなく、少し状況を変えた(例えば、天候を変えたり、車の位置を少しずらしたり)様々なパターンのシナリオも自動で生成し、学習データを増やすことができます。
自律走行車のAIは、様々な状況に対応できるようになるまで学習する必要があります。しかし、実際の道路で全てのパターンを経験するには、莫大な時間とコストがかかります。
そこで、このニューラル再構成エンジンは、過去の運転データをベースに、まるでゲームのように様々なシミュレーション環境を素早く作り出すことで、効率的にAIを学習させることができるのです。
つまり、過去の運転を「材料」として、様々なバリエーションの運転シナリオを生成し、自律走行車のAIを鍛えるための「トレーニングジム」のような役割を果たしています。
Edify 3DS
Edify 3DSは、自律走行車のAIを訓練するためのシミュレーション環境を、さらに簡単に、そして自動的に作り出すためのツールです。ここでは、シミュレーションで使われる「シーン」を作ることに特化しています。
アセットとは? シミュレーションで使用される、車、建物、木、道路標識などの3Dモデルを「アセット」と呼びます。Edify 3DSは、これらのアセットを組み合わせてシーンを作ります。
既存アセットの検索: Edify 3DSは、事前に用意された「アセットライブラリ」の中から、必要なアセットを自動的に検索します。「このシーンには車が必要だな」「この場所には建物が必要だな」というように、シーンに合わせて最適なアセットを見つけ出してくれます。
新しいアセットの生成: もし、アセットライブラリに適切なアセットがない場合は、Edify 3DSが、それらを新たに生成することもできます。例えば、特定のデザインの建物や、特定の種類の道路標識を必要とする場合でも、それらを自動的に作ってくれます。シム対応シーンの作成: Edify 3DSは、ただアセットを配置するだけでなく、シミュレーションでそのまま使えるように、シーンを最適化します。例えば、物理的な特性(重さ、摩擦など)や、光の当たり方なども適切に設定します。
なぜこれが重要なのか?
自律走行車のAIは、様々な環境で訓練する必要があります。そのため、多様なシーン(街中、田舎道、高速道路など)を用意する必要があるのですが、それらを一つ一つ手作業で作るには、非常に手間と時間がかかります。
そこでEdify 3DSは、アセットを自動的に検索したり、必要であれば新規に生成したりすることで、シミュレーションに必要なシーンを素早く、そして効率的に作り出すことができるのです。
つまり、Edify 3DSは、シミュレーションの世界を構築するための「便利な建設ツール」のようなものです。色々な部品(アセット)を自動的に集めてきて、それを適切に配置することで、まるでレゴブロックで街を作るように、簡単にシミュレーション用のシーンを作り出すことができるというイメージです。
各要素の役割
Omniverse: 3D、シミュレーション、コラボプラットフォームです。異なるデータを連携させることができます。OmniMap: Omniverseの中で、地図で運転可能な3D環境(DVE)を構築する機能です。
Edify 3DS: Omniverseの中で、シミュレーションシーンを作成する。アセットの検索、生成、配置を行う
Cosmos
Omniverseで作成されたシーンを活用して、大量のフォトリアリスティックなデータを生成するAIベースのツールです。主に、自律走行車のAIモデルを訓練するためのデータを生成する。
連携の仕組み
環境構築 (Omniverse + OmniMap & Edify 3DS): まず、OmniMapで作成された地図データや、Edify 3DSで作成された3Dシーンが、Omniverseプラットフォームに集められます。これにより、シミュレーションの基礎となる環境が作られます。
データ生成 (Cosmos): Omniverseで作られた環境が、Cosmosに渡されます。Cosmosは、この環境を元に、AIを用いて大量のフォトリアリスティックな運転シミュレーションデータを生成します。様々な天候、時間帯、交通状況など、多様な状況を再現できます。
CosmosとMap/Edifyの関係
Cosmosは、Omniverse上で作られた3D環境データを利用して、AIによるデータ生成を行うツールです。Cosmosは、OmniMapで作成された地図データを活用して、様々な運転シナリオを作成できます。
Cosmosは、Edify 3DSで作成されたシーンデータを活用して、よりリアルなシミュレーションデータを生成できます。
物理AIの未来
次に物理AIについてお話しします。これを理解するために、まずは大規模言語モデルの仕組みを簡単に振り返ります。通常、言語モデルは、左側に与えられたコンテキストやプロンプト(質問など)をもとにトークンを1つずつ生成し、最終的な出力を作り上げます。このモデルの中核は非常に大規模で、数十億ものパラメータを持っています。モデルはトークン間の関係性を計算し、それをすべての層で処理して次のトークンを生成します。このプロセスが非常に計算集約的であり、Blackwellのような高性能なハードウェアが必要になる理由です。
では、プロンプトが質問ではなく「指示」だった場合はどうでしょう?たとえば、「あそこに行って、その箱を取って戻ってきて」というようなリクエストです。そして、トークンとして生成されるのがテキストではなく、アクション(行動)トークンだった場合を考えてみてください。このような仕組みは、ロボティクスの未来にとって非常に現実的で、間近に迫った技術革新です。
しかし、そのためには、言語モデル(GPT)のようなものではなく、「世界モデル」を作成する必要があります。この「世界モデル」は物理的な世界の言語を理解する必要があります。たとえば、重力、摩擦、慣性といった物理法則や、幾何学的および空間的な関係、因果関係などを理解しなければなりません。また、オブジェクトの永続性(Object Permanence)も理解する必要があります。たとえば、ボールがキッチンのカウンターを転がって反対側に落ちたとしても、それが「消えた」のではなく、まだそこに存在することを認識しなければなりません。
NVIDIA Cosmos: 世界初の「世界モデル」で物理現象表現
これを実現するために、本日、私たちは大きな発表を行います。それが「NVIDIA Cosmos」です。Cosmosは、物理的な世界を理解するために設計された「世界基盤モデル」(World Foundation Model)です。以下に、Cosmosの特徴を紹介します:
• 物理AIのための新たなフロンティア
Cosmosは、動的な自然現象や人間の動き、手の操作など、物理的な世界のデータを学習しています。このモデルは、クリエイティブなコンテンツを生成するためではなく、物理世界を理解するために設計されています。
• シミュレーションと合成データ生成
NVIDIA Omniverseと連携することで、物理ベースで地理的に正確なシナリオを作成し、それをCosmosに入力してフォトリアルで物理的に忠実な合成データを生成します。これにより、AIモデルのトレーニング、ポリシーモデルの強化学習、モデル性能のテストと検証が可能になります。
• リアルタイムトークン生成
Cosmosはリアルタイムでトークンを生成し、マルチバースシミュレーションの力を活用してAIモデルに「先見性」を提供します。これにより、あらゆる未来の可能性をシミュレーションし、適切な選択を行えるようになります。
Cosmosは、20万時間のビデオデータを使ってトレーニングされています。このデータには、動的な自然現象や人間の動作、速いカメラワークなど、物理世界のダイナミクスに焦点を当てたものが含まれています。これにより、AIは物理世界を理解する能力を獲得します。
これが「物理AI」の時代の幕開けです。NVIDIAは、世界中の開発者エコシステムと協力して、この次なるAI革命を推進していきます。
NVIDIA Cosmosは、物理的な世界を理解するために設計された初の「世界基盤モデル」(World Foundation Model)として、物理AIの新たなフロンティアを切り開いています。このモデルを活用することで、さまざまな分野での応用が可能となります。その一例をご紹介します。
Cosmosによる合成データ生成の可能性
物理AIを活用することで、AIモデルのトレーニング用データを効率的かつ精度高く生成することができます。実際の物理環境を再現するデータを用いることで、現実世界に近いシミュレーションを実現し、AIのパフォーマンスを大幅に向上させることができます。
• 多様なオブジェクトや環境の生成
Cosmosは、多様なオブジェクト、環境、条件(例:天候、昼夜の違い、エッジケースなど)を生成することができます。このような合成データは、AIモデルのトレーニングに不可欠です。たとえば、自動運転車のAIモデルをトレーニングする際には、曇りの日、雨の日、雪の日など、さまざまな気象条件を再現する必要があります。
• 強化学習のフィードバック
Cosmosで生成された物理的なシミュレーションデータを使用することで、強化学習(Reinforcement Learning)モデルのポリシーを改善するためのフィードバックを提供できます。これにより、ロボティクスや自動運転車のような動的システムのパフォーマンスを最適化できます。
• モデル性能のテストと検証
Cosmosは、AIモデルの性能をテストし、検証するための仮想環境を提供します。この環境では、マルチセンサービュー(例:カメラ、LIDAR、音波センサーなど)を活用して、現実世界におけるモデルの挙動をシミュレーションすることが可能です。
Cosmosのリアルタイムトークン生成
Cosmosは、リアルタイムでトークンを生成し、AIモデルに「先見性」(Foresight)を与えます。この機能は特に、複雑な意思決定やマルチタスクを伴うシステムにおいて重要です。
• 未来のシナリオをシミュレーション
Cosmosは、考えられるすべての未来のシナリオをシミュレーションし、それをAIモデルに提供することで、最適な行動パスを選択できるようにします。この機能は、自動運転車やロボットにとって非常に重要です。たとえば、道路上の障害物を避ける際に、どの方向に進むべきかを判断するのに役立ちます。
• マルチバースシミュレーション
Cosmosは「マルチバースシミュレーション」とも呼ばれる技術を使用して、複数の可能性を同時に探索します。この技術により、AIモデルは単一のシナリオに限定されることなく、複数の選択肢を考慮に入れることができます。
物理AIの応用例
Cosmosは、幅広い応用分野で利用される可能性があります。以下は、その一部の例です。
1. 自動運転車
自動運転車のAIモデルは、現実世界で直面するあらゆる状況に対応できるようにトレーニングする必要があります。Cosmosは、リアルな交通状況や天候条件を再現するシミュレーション環境を提供します。
2. ロボティクス
ロボットのAIモデルは、物体の把握や移動、複雑なタスクの実行など、物理的な世界との相互作用を学習する必要があります。Cosmosを活用することで、これらのタスクをシミュレーション環境でトレーニングできます。
3. 製造業
工場で使用されるロボットや自動化システムの最適化にCosmosを利用できます。たとえば、ロボットがどのように製品を組み立てるかをシミュレーションし、生産効率を向上させる方法を見つけることができます。
4. 医療分野
手術支援ロボットやリハビリテーション機器のトレーニングにCosmosを使用することで、患者への影響を最小限に抑えながら、技術を向上させることができます。
5. 教育およびトレーニング
Cosmosを使用して、学生や専門家が物理的な環境をシミュレーションしながら学習できる教育ツールを作成することができます。たとえば、航空機のパイロットトレーニングや建築設計のシミュレーションに役立ちます。
まとめ
Omniverseは、3D環境を構築するためのプラットフォーム。
OmniMapは、地図データを基に3D環境を作る機能(Omniverse内)。
Edify 3DSは、3Dシーンを作るツール(Omniverse内)。
Cosmosは、Omniverse環境を使い、AIで大量のデータを生成するツール。
Cosmosは、Omniverseとその関連ツール(OmniMap, Edify 3DSなど)と連携して動作することで、効率的に自律走行車のAIを訓練するためのデータを作成する、
例えるなら、
Omniverseは、料理をするための「キッチン」
OmniMapは、料理に必要な「地図(食材の位置を示す)」
Edify 3DSは、料理の「盛り付け」
Cosmosは、作った料理を元に、AIが大量の「レシピ」を生成する
Cosmos Nemo Ron Video Search
また、テキストプロンプトを使用すると、Cosmos Nemo Ron Video Searchによって、ほぼ無限の運転シナリオのバリエーションを生成できます。