見出し画像

そもそもNVIDIA COSMOSとは何か?Jensen Huangが詳細に説明

CESで NVIDIA COSMOSという単語が初めてデビューしました。画像やビデオを取り込み、フォトリアルなビデオクリップを出力して、ポリシーモデルを再学習させることができます。
以下Jensen Huang氏の説明
AIの次なるフロンティアは「物理AI(Physical AI)」です。モデルの性能はデータの利用可能性に直接関係しますが、物理世界のデータを収集し、キュレーションし、ラベリングするには高いコストがかかります。
そこで登場するのが、NVIDIAの「COSMOS」です。COSMOSは、物理AIを進化させるための「世界基盤モデル」開発プラットフォームです。このプラットフォームには、自動回帰型の世界基盤モデル、拡散型の世界基盤モデル、高度なトークナイザー、そしてNVIDIA CUDAによるAI加速型データパイプラインが含まれています。

COSMOSモデルは、テキスト、画像、またはビデオのプロンプトを取り込み、それを元に仮想世界の状態をビデオとして生成します。これらの生成物は、AV(自動運転車)やロボティクスのユースケースに求められる特有の要件、例えば現実の環境、照明条件、オブジェクトの永続性といった要素を優先しています。

開発者は、NVIDIA Omniverseを使用して物理的かつ地理的に正確なシナリオを構築し、そのレンダリングをCOSMOSに出力します。そしてCOSMOSは、フォトリアリスティックかつ物理的に基づいた合成データを生成します。多様なオブジェクトや環境、天候や時間帯などの条件、あるいはエッジケースのシナリオであっても、COSMOSを利用して世界を生成できます。これにより、強化学習AIのフィードバックとして活用され、ポリシーモデルの改善や、モデル性能のテストや検証が可能になります。さらに、複数のセンサー視点にまたがる状況にも対応できます。

COSMOSはリアルタイムでトークンを生成することができ、AIモデルに予測能力や多元宇宙シミュレーションの力をもたらします。これにより、あらゆる可能な未来を生成し、モデルが最適な道を選択できるよう支援します。

NVIDIAは世界中の開発者エコシステムと協力し、物理AIの次なる波を進化させるために貢献しています。


いいなと思ったら応援しよう!