NVIDIAがCES 2025で物理AI開発のためのオープンな世界基盤モデルプラットフォーム「Cosmos」を発表

2025年1月10日 19:46

こんにちは、スクーティーという会社の代表のかけやと申します。

弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。

近年、AI技術は目覚ましい発展を遂げていますが、特に注目されているのが、現実世界を理解し予測する「物理AI」です。しかし、物理AIの開発には、膨大なデータ収集、安全性への配慮など多くの課題があり、開発者は暗闇の中、手探りで進むような、もどかしさを感じているのではないでしょうか？

そんな中、NVIDIAがCES 2025で発表した「Cosmos」は、まさに暗闇に差し込む一筋の光と言えるでしょう。Cosmosは、最先端の「世界基盤モデル」を用いて、物理法則に基づいたシミュレーション環境を提供することで、データ不足や安全性といった課題を解決し、物理AI開発を効率化します。

この記事を読むことで、NVIDIAの最新技術「Cosmos」がどのように物理AI開発に革命をもたらすのか、その仕組みと可能性を深く理解し、あなたの開発を加速させるヒントを得ることができるでしょう。さらに、自動運転、ロボティクス、製造業など、様々な分野での具体的な活用事例を紹介し、Cosmosがもたらす未来の姿を明らかにします。

また、Cosmosのオープンソース化が、どのようにAI開発の民主化を推進し、開発者コミュニティに貢献するのかについても考察します。そして、この技術が、自動運転、ロボティクス、製造業など、様々な分野で活用され、私たちの生活をより豊かにしてくれる未来を想像してみてください。

物理AI開発の未来を拓く「Cosmos」

世界基盤モデル「Cosmos」とは？

皆さんは、「AI（人工知能）」という言葉を聞いたことがあると思います。AIは、コンピューターに人間のような知能を持たせる技術です。最近では、AIを使って、文章を書いたり、絵を描いたり、音楽を作ったりすることができるようになりました。しかし、これまでのAIは、主にインターネット上の情報や、人間が作ったデータを学習していました。つまり、現実の世界を直接理解しているわけではなかったのです。

そこで、NVIDIAは「物理AI」という新しいAIの開発を進めています。「物理AI」とは、現実の世界、つまり私たちが住んでいるこの世界の物理法則を理解し、予測することができるAIのことです。例えば、ボールを投げたらどのように飛んでいくか、車が曲がるときにどのような力が働くか、といったことを理解できるAIです。このような物理AIを実現するために、NVIDIAは「Cosmos」という「世界基盤モデル」を開発しました。

「世界基盤モデル」とは、物理法則を学習した、いわば「物理の世界の常識」を身につけたAIのことです。大量のビデオデータから、物体の動き、光の反射、重力の影響など、現実世界の様々な物理現象を学習します。そして、学習した知識を使って、未来の出来事を予測したり、現実には存在しないような仮想世界をシミュレーションしたりすることができます。そして、このCosmosは他の世界基盤モデルと比べて、拡散モデルと自己回帰モデルの両方を採用することで、高品質なビデオ生成と高速な推論を両立している点が大きな特徴です。

Cosmosの何がすごいのかというと、これまで困難だった物理AIの開発を、ずっと簡単に、そして安全に進めることができるようになることです。例えば、自動運転車を開発する場合、これまでは、実際に車を走らせて、様々な状況のデータを集める必要がありました。しかし、これは時間もコストもかかりますし、危険も伴います。Cosmosを使えば、仮想空間上で、様々な状況をシミュレートし、AIモデルをトレーニングすることができます。雪道や、濃霧の中、突然の飛び出しなど、現実世界ではなかなか遭遇できないような状況も、簡単に作り出すことができます。これにより、AIモデルは、より多くの経験を積み、より賢くなることができます。

また、Cosmosは、オープンソースとして公開されているため、世界中の誰でも自由に利用することができます。これにより、物理AIの開発が加速され、私たちの生活をより豊かにするような、様々なアプリケーションが生まれることが期待されます。

NVIDIA Cosmosは、物理AIシステムの開発を加速するために設計された、最先端の生成AIである「世界基盤モデル（WFM）」、高度なトークナイザ（動画を効率的に処理するための技術）、ガードレール（AIの安全な利用を保証する仕組み）、および高速化されたビデオ処理パイプラインを含むプラットフォームです。

物理AIモデルの開発には、膨大な量の現実世界のデータとテストが必要であり、コストがかかります。CosmosのWFMは、開発者に物理ベースのフォトリアルな合成データを大量に生成する簡単な方法を提供し、既存モデルのトレーニングと評価を支援します。また、開発者はCosmos WFMを微調整してカスタムモデルを構築することもできます。

「Pre-trained WFM」と「Custom Datasets」という2つの要素から「Post-trained WFM」が生成され、様々なアプリケーション（Application A, B, C）に適用される様子が描かれています。 — 出典：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_2.pdf

Cosmosがもたらす変革：物理AI開発の効率化

Cosmosモデルは、オープンモデルライセンスの下で利用可能であり、ロボティクスおよび自動運転車（AV）コミュニティの作業を加速します。開発者は、NVIDIA APIカタログで最初のモデルをプレビューしたり、NVIDIA NGCカタログやHugging Faceからモデルファミリーとファインチューニングフレームワークをダウンロードしたりできます。

以下のような企業が既にCosmosを採用しています。

さらに、配車大手のUberもCosmosの採用を表明しています。「ロボティクスのChatGPTモーメントが到来しています。大規模言語モデルと同様に、世界基盤モデルはロボットとAV開発を進める上で基本的ですが、すべての開発者が独自のモデルをトレーニングする専門知識とリソースを持っているわけではありません」と、NVIDIAの創設者兼CEOであるジェンスン・フアンは述べています。「私たちは、物理AIを民主化し、すべての開発者が一般的なロボティクスを利用できるようにするためにCosmosを作成しました。」

以下の動画では、NVIDIAのCEO、ジェンスン・フアンが、AIの進化と、それが様々な産業にもたらす影響について語っています。特に、25分07秒からは、Cosmosが実現する物理AIの可能性について、具体的なデモを交えながら解説しています。この部分は、Cosmosの概要を理解する上で非常に参考になります。ここでは、Cosmosが物理AI開発のためのプラットフォームであり、世界基盤モデル、トークナイザー、ガードレールなどの主要なコンポーネントで構成されていることが説明されています。

また、27分30秒からは、Cosmosを用いた物理AIのデモンストレーションを見ることができます。ここでは、ロボットアームが物体を把持して移動させる様子がシミュレーションされており、Cosmosの物理シミュレーション能力の高さが示されています。

オープンな世界基盤モデル：AIの次なる波を加速

NVIDIA Cosmosのオープンモデルスイートは、開発者がターゲットアプリケーションのニーズに応じて、AVの走行記録や倉庫内を移動するロボットのビデオなどのデータセットを使用してWFMをカスタマイズできることを意味します。Cosmos WFMは、物理AIの研究開発のために特別に構築されており、テキスト、画像、ビデオ、ロボットセンサーやモーションデータなどの入力の組み合わせから物理ベースのビデオを生成できます。これらのモデルは、物理ベースの相互作用、オブジェクトの永続性、倉庫や工場などの産業環境や、さまざまな道路状況を含む運転環境の高品質なシミュレーションのために構築されています。

Cosmosの主要コンポーネント：開発を支える技術

物理AIモデルの構築には、ペタバイト級のビデオデータと、そのデータを処理、キュレート、ラベル付けするための数万時間の計算時間が必要です。データキュレーション、トレーニング、モデルカスタマイズにかかる膨大なコストを削減するために、Cosmosは以下の機能を備えています。

ビデオキュレーター：2000万時間の生動画から、物理法則の学習に適した高品質な部分を効率的に抽出します。具体的には、長い動画をシーンの変化ごとに分割し、短いクリップを作成します。動きの少ない動画や、画質の悪い動画、過剰なテキストオーバーレイが含まれる動画など、学習に不適切なクリップを除外します。各クリップに、内容を説明するテキストキャプションを付与します。意味的に重複するクリップを削除し、データの多様性を確保します。そして、モデルのトレーニングに適した形式にデータを分割します。これらのステップにより、高品質で多様性に富んだビデオデータセットが構築されます。また、これらの処理は、GPUを用いて高速化されており、2000万時間のビデオデータをわずか14日間で処理することができます。
ビデオトークナイザー：動画を効率的に処理するために、動画を「トークン」と呼ばれる小さな単位に分割します。動画の各フレームを小さなパッチに分割し、それぞれのパッチをトークンと呼ばれるベクトル表現に変換します。このトークンは、元のピクセル情報よりもはるかに小さいサイズで、動画の内容を表現することができます。例えば、8x8x8の圧縮率を持つCosmos-1.0-Tokenizer-CV8x8x8は、元のビデオと比較して、8分の1の空間サイズと8分の1の時間サイズに動画を圧縮します。つまり、元のビデオの64分の1のサイズに圧縮することができます。Cosmosトークナイザーは、連続トークナイザーと離散トークナイザーの2種類を提供しています。連続トークナイザーは、動画を連続的なベクトル表現に変換し、拡散モデルなどの生成モデルに適しています。一方、離散トークナイザーは、動画を離散的なトークン列に変換し、自己回帰モデルなどの言語モデルに適しています。例えば、離散トークナイザーでは、6次元の潜在空間を(8, 8, 8, 5, 5, 5)レベルに量子化することで、64,000の語彙サイズを実現しています。これは、動画の情報を効率的に表現するための重要な技術です。Cosmosトークナイザーは、高い圧縮率と高品質な動画再構成を両立しています。さらに、因果的設計を採用しているため、画像と動画の両方を統一的に扱うことができ、画像データセットを用いた学習も可能です。具体的には、現在のフレームをエンコードする際に、過去のフレームの情報のみを使用し、未来のフレームの情報は使用しません。この設計により、画像と動画を同じ枠組みで扱うことができ、モデルの汎用性が向上します。
事前学習済み世界基盤モデル：物理法則に基づいた動画を生成する、汎用的なAIモデルです。拡散モデルと自己回帰モデルの2つの主要な深層学習パラダイムを用いて構築されており、それぞれ異なる特性を持っています。拡散モデルは、ノイズから徐々に動画を生成するモデルであり、自己回帰モデルは、過去のフレームに基づいて次のフレームを予測するモデルです。Cosmosでは、これらのモデルを、それぞれText2WorldモデルとVideo2Worldモデルとして構築しています。
世界基盤モデルの事後学習サンプル：特定のタスクに特化したモデルを作成するためのサンプルコードです。例えば、カメラ制御可能な3D世界生成、ロボット操作のためのビデオ予測、自動運転のためのマルチビュー世界モデルなど、様々なタスクに対応したサンプルコードが提供されています。
ガードレール：AIモデルの安全な利用を保証するための仕組みです。詳細は後述します。
NVIDIA AIおよびCUDA®で高速化されたデータ処理パイプライン：NVIDIA NeMo™ Curatorを搭載し、開発者がNVIDIA Blackwellプラットフォームを使用して2,000万時間のビデオを14日間で処理、キュレート、ラベル付けできるようにします。これは、CPUのみのパイプラインを使用した場合の3年以上の時間を短縮します。
NVIDIA Cosmos Tokenizer：画像とビデオをトークンに変換するための最先端のビジュアルトークナイザーです。今日の主要なトークナイザーよりも8倍の総圧縮率と12倍の高速処理を実現します。
NVIDIA NeMoフレームワーク：高効率なモデルトレーニング、カスタマイズ、最適化のためのフレームワークです。

「Video Curator」「Tokenizers」「Pre-trained World Foundation Models」「World Foundation Model Post-Training Samples」「Guardrail」という5つの要素で構成される「Cosmos World Foundation Model Platform」が示されています。 — 出典：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_2.pdf

Cosmosの活用事例：多様な分野での可能性

Cosmosは、自動運転車、ロボティクス、製造業など、様々な分野で活用できます。以下は、具体的な活用事例の一部です。

自動運転車：Cosmosは、自動運転車のAIモデルのトレーニングと評価に使用できます。例えば、雪道や霧などの稀な状況のデータを生成したり、AIモデルが危険な状況にどのように対処するかをテストしたりすることができます。具体的には、複数のカメラで撮影された映像を統合し、周囲の状況を理解した上で、車両の将来の軌道を予測する動画を生成できます。
ロボティクス：Cosmosは、ロボットのAIモデルのトレーニングと評価に使用できます。例えば、ロボットが物体を掴む、運ぶなどのタスクを実行する様子をシミュレートしたり、ロボットが未知の環境でどのように動作するかをテストしたりすることができます。具体的には、テキストの指示や、ロボットのアクションに基づいて、ロボットの動作を予測する動画を生成できます。
製造業：Cosmosは、工場のデジタルツインを作成し、生産ラインの最適化や、ロボットによる自動化のシミュレーションに使用できます。具体的には、工場の3Dモデルとロボットの動作を組み合わせることで、生産ラインの効率化や、ロボットの導入効果を事前に検証することができます。

これらの活用事例はほんの一例です。Cosmosは、物理的な世界を理解し、予測するAIモデルの開発を加速させることで、様々な分野に革新をもたらす可能性を秘めています。

NVIDIA Cosmos：技術的な詳細

ビデオデータキュレーション：高品質なデータセットの構築

Cosmosの基盤となるのは、高品質なビデオデータセットです。NVIDIAは、2000万時間にも及ぶ膨大なビデオデータから、物理法則の学習に適した部分を効率的に抽出するビデオデータキュレーションパイプラインを開発しました。このパイプラインは、以下の5つのステップで構成されています。

分割：長い動画をシーンの変化ごとに分割し、短いクリップを作成します。具体的には、TransNetV2と呼ばれるショット境界検出アルゴリズムを用いて、動画をショット単位に分割します。このアルゴリズムは、他のアルゴリズムと比較して、特に複雑なショット変化を含む動画に対して高い精度を示しています。
フィルタリング：動きの少ない動画や、画質の悪い動画、過剰なテキストオーバーレイが含まれる動画など、学習に不適切なクリップを除外します。具体的には、モーションフィルタリング、視覚品質フィルタリング、テキストオーバーレイフィルタリング、ビデオタイプフィルタリングなどの技術を用いて、不要なクリップを特定し、削除します。
アノテーション：各クリップに、内容を説明するテキストキャプションを付与します。具体的には、VILAと呼ばれる最先端のVLMを用いて、各クリップの内容を詳細に記述したキャプションを生成します。平均で559文字、97単語の詳細なキャプションが生成されます。
重複排除：意味的に重複するクリップを削除し、データの多様性を確保します。具体的には、InternVideo2と呼ばれるモデルを用いて、各クリップの埋め込みベクトルを計算し、k-meansアルゴリズムを用いてクラスタリングを行います。そして、各クラスター内で、最も解像度の高いビデオを選択することで、重複を排除します。
シャーディング：モデルのトレーニングに適した形式にデータを分割します。具体的には、ビデオの解像度、アスペクト比、長さに基づいて、データをシャーディングします。

これらのステップにより、高品質で多様性に富んだビデオデータセットが構築されます。また、これらの処理は、GPUを用いて高速化されており、2000万時間のビデオデータをわずか14日間で処理することができます。

「Raw Input Video」から始まり、「Splitting」「Filtering」「Annotation」というステップを経て、「Video Clip Database」が生成され、さらに「Dedup」「Sharding」というステップを経て、最終的にデータセットが生成される様子が描かれています。 — 出典：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_2.pdf

ビデオトークナイザー：効率的なデータ処理のために

Cosmosでは、動画を効率的に処理するために、ビデオトークナイザーと呼ばれる技術を使用しています。ビデオトークナイザーは、動画を「トークン」と呼ばれる小さな単位に分割します。トークンとは、動画の各フレームを小さなパッチに分割し、それぞれのパッチをベクトル表現に変換したものです。

このトークン化により、動画データのサイズを大幅に削減し、モデルのトレーニングと推論を高速化できます。例えば、8x8x8の圧縮率を持つCosmos-1.0-Tokenizer-CV8x8x8は、元のビデオと比較して、8分の1の空間サイズと8分の1の時間サイズに動画を圧縮します。つまり、元のビデオの64分の1のサイズに圧縮することができます。

Cosmosトークナイザーは、連続トークナイザーと離散トークナイザーの2種類を提供しています。連続トークナイザーは、動画を連続的なベクトル表現に変換し、拡散モデルなどの生成モデルに適しています。一方、離散トークナイザーは、動画を離散的なトークン列に変換し、自己回帰モデルなどの言語モデルに適しています。

例えば、離散トークナイザーでは、6次元の潜在空間を(8, 8, 8, 5, 5, 5)レベルに量子化することで、64,000の語彙サイズを実現しています。これは、動画の情報を効率的に表現するための重要な技術です。Cosmosトークナイザーは、高い圧縮率と高品質な動画再構成を両立しています。

さらに、因果的設計を採用しているため、画像と動画の両方を統一的に扱うことができ、画像データセットを用いた学習も可能です。具体的には、現在のフレームをエンコードする際に、過去のフレームの情報のみを使用し、未来のフレームの情報は使用しません。この設計により、画像と動画を同じ枠組みで扱うことができ、モデルの汎用性が向上します。

因果的設計を採用しているため、画像と動画の両方を統一的に扱うことができ、画像データセットを用いた学習も可能です。具体的には、現在のフレームをエンコードする際に、過去のフレームの情報のみを使用し、未来のフレームの情報は使用しません。この設計により、画像と動画を同じ枠組みで扱うことができ、モデルの汎用性が向上します。 — 出典：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_2.pdf

世界基盤モデルの事前学習：拡散モデルと自己回帰モデル

Cosmosは、拡散モデルと自己回帰モデルという2つの主要な深層学習パラダイムを用いて、事前学習済みWFMを構築しています。これらのモデルは、大量のビデオデータから、物理世界の一般的な知識を学習します。拡散モデルは、ノイズから徐々にビデオを生成するモデルであり、自己回帰モデルは、過去のフレームに基づいて次のフレームを予測するモデルです。Cosmosでは、これらのモデルを、それぞれText2WorldモデルとVideo2Worldモデルとして構築しています。

Text2Worldモデルは、テキストプロンプトからビデオを生成するモデルです。例えば、「A sleek, humanoid robot stands in a vast warehouse filled with neatly stacked cardboard boxes on industrial shelves.（「すっきりとした、人型ロボットが、きちんと積み重ねられた段ボール箱でいっぱいの広大な倉庫に立っています。」）」というテキストプロンプトから、その情景を描写したビデオを生成することができます。Cosmosでは、7Bと14Bの2つの異なるサイズのText2Worldモデルを構築しています。これらのモデルは、大量のビデオデータとテキストデータを用いて事前学習されており、多様なシーンを生成する能力を持っています。

以下の図は、7Bモデルと14Bモデルが、与えられたテキストプロンプトから生成した動画のフレームを比較したものです。14Bモデルの方が、ロボットや倉庫の細部までより詳細に、そして鮮明に描画されていることがわかります。これは、モデルのパラメータ数が多く、より複雑な情報を学習できるためです。また、テキストプロンプトに忠実に、整然と積み上げられた段ボール箱や、ロボットの質感なども、リアルに再現されていることが見て取れます。

7Bモデルと14Bモデルが、与えられたテキストプロンプトから生成した動画のフレームを比較したものです。14Bモデルの方が、ロボットや倉庫の細部までより詳細に、そして鮮明に描画されていることがわかります。これは、モデルのパラメータ数が多く、より複雑な情報を学習できるためです。また、テキストプロンプトに忠実に、整然と積み上げられた段ボール箱や、ロボットの質感なども、リアルに再現されていることが見て取れます。 — 出典：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_2.pdf

具体的には、EDM (Elucidating the Design Space of Diffusion-Based Generative Models)と呼ばれるフレームワークを用いて、拡散モデルを学習しています。EDMでは、ノイズレベルの分布を適切に設定することで、学習の安定化と効率化を図ることができます。また、画像とビデオの両方のデータを用いて学習を行うことで、モデルの汎化性能を高めています。さらに、学習の初期段階では低解像度のビデオを用い、徐々に解像度を上げていくことで、効率的な学習を実現しています。

Video2Worldモデルは、過去のビデオとテキストプロンプトから未来のビデオを予測するモデルです。例えば、ロボットアームがワイングラスを持っている映像と、「ロボットアームがワイングラスをテーブルに置く」というテキストプロンプトを入力すると、ロボットアームがワイングラスをテーブルに置く様子を描写したビデオを生成することができます。Cosmosでは、7Bと14Bの2つの異なるサイズのVideo2Worldモデルを構築しています。これらのモデルは、Text2Worldモデルをベースに、追加のビデオデータを学習することで構築されています。

以下の図は、Video2Worldモデルが、過去のビデオフレームとテキストプロンプトから未来のビデオフレームを予測し、生成した例を示しています。上段では7Bモデルが、下段では14Bモデルが生成した動画のフレームが比較されています。また、下段では、長時間の動画生成能力も示されており、最初の画像からどのように動画が展開されていくかを確認できます。これらの例から、モデルが過去の情報を基に、未来のシーンを予測し、自然な動画を生成できることがわかります。特に、下段の右側の例では、工場の内部が詳細に描かれており、Cosmosが複雑なシーンの生成にも対応できることが示されています。

下段では、長時間の動画生成能力も示されており、最初の画像からどのように動画が展開されていくかを確認できます。これらの例から、モデルが過去の情報を基に、未来のシーンを予測し、自然な動画を生成できることがわかります。特に、下段の右側の例では、工場の内部が詳細に描かれており、Cosmosが複雑なシーンの生成にも対応できることが示されています。 — 出典：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_2.pdf

自己回帰モデルでは、過去のトークン列に基づいて、次のトークンを逐次的に予測します。Cosmosでは、4Bと12Bの2つの異なるサイズの自己回帰モデルを構築しています。これらのモデルは、Transformerアーキテクチャをベースに、以下の工夫が施されています。

3D位置埋め込み: 時間、高さ、幅の3次元の位置情報をモデルに与えることで、動画の時空間構造を捉える能力を高めています。これにより、例えば、動画内のオブジェクトの動きや、カメラの動きなどをより正確にモデル化することができます。
テキスト条件付けのためのクロスアテンション: テキストの意味情報をモデルに組み込むことで、テキストと動画の関連性を学習します。これにより、テキストプロンプトに沿った動画を生成することが可能になります。
クエリキー正規化: アテンション機構の学習を安定化させることで、モデルの性能を向上させています。具体的には、クエリとキーのベクトルを正規化することで、学習の初期段階における不安定な挙動を抑えることができます。
高速な推論のためのMedusa技術: 複数のデコーディングヘッドを用いて、複数のトークンを並列に予測します。予測されたトークンは検証器によって検証され、正しいと判断されたトークンのみが採用されます。このプロセスを繰り返すことで、高速かつ高品質なビデオ生成を実現しています。

さらに、自己回帰モデルの出力をさらに高品質化するために、拡散デコーダーと呼ばれる技術が用いられています。拡散デコーダーは、自己回帰モデルが出力した離散トークン列を、連続的なトークン列に変換し、さらに、Cosmos-1.0-Tokenizer-CV8x8x8を用いて、RGBビデオにデコードします。これにより、自己回帰モデルの出力の欠点を補い、より高品質なビデオを生成することができます。

以下の動画では、自己回帰モデルを用いた、テキストから動画を生成する例が紹介されています。

この動画では、静止画とテキスト「it continues this image into the future as a video.（この画像を未来のビデオに続けます。）」から、動画を生成するデモを見ることができます。静止画で示された状況から、その後の展開を予測し、動画を生成する様子が確認できます。

これらのモデルは、NVIDIAのH100 GPUを1万基搭載したクラスターを用いて、3ヶ月かけてトレーニングされました。Cosmosでは、モデルサイズや学習データの異なる複数のモデルが用意されており、用途に応じて使い分けることができます。

以下の動画では、実際にCosmosを用いて生成された動画サンプルをご覧いただけます。

上の動画の20秒から24秒では、テキスト「A sleek, humanoid robot stands in a vast warehouse filled with neatly stacked cardboard boxes on industrial shelves.（「すっきりとした、人型ロボットが、きちんと積み重ねられた段ボール箱でいっぱいの広大な倉庫に立っています。」）」から生成された動画を見ることができます。この動画では、テキストで指定された内容が正確に描写されており、CosmosのText2Worldモデルの性能の高さが示されています。

上の動画の44秒から50秒では、過去のビデオフレームに基づいて未来のビデオフレームを予測するVideo2Worldモデルの例を見ることができます。ここでは、カメラがパンする動きに合わせて、背景の景色が自然に変化していることがわかります。

世界基盤モデルの事後学習：特定のタスクへの適応

事前学習済みWFMは、特定のタスクに特化したデータセットを用いてファインチューニングすることで、そのタスクに最適化されたモデル（事後学習済みWFM）を作成できます。Cosmosでは、以下の3つのタスクを例に、事後学習の方法を示しています。

カメラ制御：ユーザーが指定したカメラの動きに合わせて、3D空間内を自由に移動しながら動画を生成できます。具体的には、Cosmos-1.0-Diffusion-7B-Video2Worldモデルに、カメラの姿勢情報を入力として与えることで、指定された視点からのビデオを生成できます。この技術を用いることで、ユーザーは、生成された3D世界の中を自由に移動しながら、様々な角度から世界を眺めることができます。これは、仮想空間の構築や、ゲーム開発などに応用できると考えられます。
ロボット操作：テキストの指示や、ロボットのアクションに基づいて、ロボットの動作を予測する動画を生成できます。例えば、「ロボットアームがワイングラスをテーブルに置く」というテキストを入力すると、ロボットアームがワイングラスをテーブルに置く様子を描写した動画を生成することができます。また、ロボットの現在の状態と、実行するアクションを入力することで、次の状態を予測することもできます。これにより、ロボットは、自分の行動の結果を事前にシミュレートし、最適な行動計画を立てることができます。具体的には、Cosmos-1.0-Diffusion-7B-Video2World-Sample-InstructionモデルとCosmos-1.0-Autoregressive-5B-Video2World-Sample-Instructionモデルは、テキストの指示に基づいて、ロボットの動作を予測する動画を生成します。一方、Cosmos-1.0-Diffusion-7B-Video2World-Sample-ActionCondモデルとCosmos-1.0-Autoregressive-5B-Video2World-Sample-ActionCondモデルは、ロボットの現在の状態と、実行するアクションを入力として、次の状態を予測します。
自動運転：複数のカメラで撮影された映像を統合し、周囲の状況を理解した上で、車両の将来の軌道を予測する動画を生成できます。具体的には、Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiViewモデルは、6つのカメラビューからの映像を同時に生成し、それらを統合して、車両周辺の3D環境をモデル化します。さらに、Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView-TrajectoryCondモデルは、車両の将来の軌道を入力として受け取り、その軌道に沿った未来のシーンを予測することができます。これにより、自動運転車は、より正確に周囲の環境を認識し、安全な走行計画を立てることができます。

これらの例は、CosmosのWFMが、様々なフィジカルAIアプリケーションに適用できることを示しています。開発者は、自身のアプリケーションに合わせて、事前学習済みWFMをファインチューニングすることで、特定のタスクに最適化されたモデルを効率的に構築することができます。

有害コンテンツをブロック：Cosmosの2段階防御システム

Cosmos WFMは、強力な生成能力を持つ一方で、悪用されるリスクも存在します。そこで、Cosmosでは、安全性を確保するために、2段階のガードレールシステムを導入しています。

1つ目は、入力されたテキストプロンプトをフィルタリングする「プリガード」です。2つ目は、生成されたビデオをフィルタリングする「ポストガード」です。プリガードでは、キーワードブロッキングとAegisガードレールの2つの仕組みを用いて、有害なプロンプトをブロックします。キーワードブロッキングでは、あらかじめ定義された有害なキーワードのリストを用いて、プロンプト中にそれらのキーワードが含まれていないかをチェックします。

Aegisガードレールは、LLMベースのガードレールであり、より複雑な意味的な判断を必要とする場合に用いられます。具体的には、Aegis-AI-Content-Safety-LlamaGuard-LLM-Defensive-1.0と呼ばれる、Llama-Guardをファインチューニングしたモデルを使用しています。このモデルは、NVIDIAのAegis Content Safety Datasetを用いて学習されており、暴力、性、犯罪計画、薬物乱用など、13のカテゴリの有害なコンテンツを検出することができます。

Cosmos WFMは、強力な生成能力を持つ一方で、悪用されるリスクも存在します。そこで、Cosmosでは、安全性を確保するために、2段階のガードレールシステムを導入しています。 — 出典：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_2.pdf

ポストガードでは、ビデオコンテンツセーフティフィルタと顔ぼかしフィルタの2つの仕組みを用いて、生成されたビデオの安全性を確保します。ビデオコンテンツセーフティフィルタは、ビデオの各フレームを、安全なクラスと安全でないクラスに分類する分類器です。

この分類器は、SigLIPと呼ばれる画像特徴抽出器を用いて、各フレームの特徴量を抽出し、それらをMLPに入力することで、分類を行います。もし、ビデオの中に1フレームでも安全でないと分類されたフレームがあれば、そのビデオ全体が安全でないと判定されます。顔ぼかしフィルタは、生成されたビデオに含まれる人物の顔を検出し、ぼかし処理を行うことで、プライバシーを保護します。顔の検出には、RetinaFaceと呼ばれる最先端の顔検出モデルを使用しています。検出された顔の領域が20x20ピクセルより大きい場合、その領域にピクセレーションを適用して、顔を識別できないようにします。

安全性評価と継続的な改善

Cosmosの安全性は、レッドチームと呼ばれる専門のチームによって、継続的に評価されています。レッドチームは、様々な攻撃的なプロンプトを用いて、Cosmosのガードレールをテストし、その有効性を検証しています。また、生成されたビデオを、専門のアノテーターが評価し、有害なコンテンツが含まれていないかを確認しています。

具体的には、公開日までに10,000以上のプロンプトとビデオのペアをテストし、アノテーションを行いました。これらのデータは、ガードレールの改善に活用されています。レッドチームの活動により、Cosmosの安全性は、継続的に向上しています。例えば、レッドチームは、特定のキーワードを言い換えることで、ガードレールを回避しようとする攻撃的なプロンプトを特定しました。

この結果を受けて、ガードレールのキーワードリストを拡充し、言い換え表現にも対応できるように改善しました。また、レッドチームは、特定の視覚的パターンを含むビデオが、ガードレールをすり抜けてしまう可能性があることを発見しました。この問題に対処するために、ビデオコンテンツセーフティフィルタのトレーニングデータを拡充し、より多様なパターンを学習させることで、検出精度を向上させました。

さらに、レッドチームは、ガードレールの評価基準を継続的に見直し、新たな脅威に対応できるようにしています。例えば、最近では、ディープフェイク技術の進展に伴い、実在の人物になりすました偽のビデオが生成されるリスクが高まっています。このようなリスクに対処するために、レッドチームは、ディープフェイクを検出する技術の開発や、生成されたビデオに電子透かしを埋め込む技術の導入などを検討しています。

結論と今後の展望

NVIDIA Cosmosは、物理AIの開発を加速する強力なプラットフォームです。Cosmosが提供する世界基盤モデル、トークナイザー、データキュレーションパイプライン、ガードレールなどのツールは、開発者が効率的かつ安全に物理AIシステムを構築することを支援します。Cosmosは、オープンソースとして公開されており、誰でも自由に利用することができます。今後、Cosmosを活用した様々な物理AIアプリケーションが登場することが期待されます。

本記事では、Cosmosの概要、アーキテクチャ、学習方法、推論方法、応用例、安全性対策について解説しました。また、今後の課題と展望についても議論しました。Cosmosは、物理AIの発展に大きく貢献する可能性を秘めており、今後の展開が注目されます。

今後は、オブジェクトの永続性、接触を伴うダイナミクスの正確性、指示への忠実さなどの課題を解決し、より高精度で汎用性の高い世界基盤モデルの開発が求められます。また、物理法則への準拠を評価するための、より高度な評価指標の開発も重要です。

NVIDIAは、これらの課題を解決するために、データセットの拡充、モデルアーキテクチャの改良、評価指標の改善など、多角的なアプローチで研究開発を進めていくとしています。さらに、オープンソース化を通じて、開発者コミュニティとの共創を促進し、物理AIの発展を加速させることを目指しています。Cosmosは、物理AIの民主化を推進し、より良い未来の実現に貢献していくことが期待されます。

最後に

最後までお読みいただき、ありがとうございます！
ぜひ　スキ　と　フォロー　をお願いします！

弊社では、LLM（大規模言語モデル）やアーキテクチャの選定、技術検証、生成AIを使用したプロトタイピングやシステム開発、お客様社内での啓蒙活動等を対応させていただく「生成AIコンサルティング」サービスを提供しています。

また、業務利用できるChatGPTのような仕組みである「セキュアGAI」や、生成AIとOCRを組み合わせた「AI文書読み取りサービス」といったAIソリューションも提供しています。

ぜひお気軽にお問い合わせください！

この記事は私が経営する株式会社スクーティーのコーポレートブログの下記記事を焼き直したものです。