NVIDIA COSMOSで物理世界をシミュレーションする動画を作成

2025年1月16日 10:09

目的：

NVIDIA COSMOSが物理AI生成に有効であることを示すため
「ハリウッドを走る車から見える景色」動画を作る手順を説明する

NVIDIA COSMOS

NVIDIA COSMOSは、テキストやビデオからビデオを生成できるモデルで、特にロボット工学や自動運転のトレーニングデータの生成に重点を置いています。

COSMOSはSoraとは全く異なります

データセット: 2000万時間のロボティクスと運転データを使用しており、リアルデータとAI生成のシンセティックデータを組み合わせています。
物理的な認識: 周囲の状況を意識したビデオ生成が可能です。
オープンソース: ハギングフェイスからモデルをダウンロードし、ファインチューニングできます。
モデルサイズ: NANO（小）、スーパー（中）、ウルトラ（大）の3つのサイズがあります。
セキュリティ: 不適切なコンテンツの生成を防ぐためのセキュリティ対策が施されています。
マルチモーダル: テキスト、ビデオ、画像からビデオ生成が可能です。
商用利用: 個人利用だけでなく、商用利用も可能です。

COSMOSの利用

テキストからビデオ: テキストプロンプトに基づいてビデオを生成できます。例えば、「Hollywood Borlevardを走っている車から見える景色」というプロンプトでビデオを生成できます。
ビデオからビデオ: 入力ビデオに基づいて新しいビデオを生成できます。
画像からビデオ: 画像を入力として、それに基づいたビデオを生成できます。例えば、道の画像から自動運転のビデオを生成できます。
サンプル: NVIDIA COSMOSのウェブサイトで、サンプル動画とそのプロンプトを確認できます。

制限事項

データの偏り: 特定のシーン（運転、ロボティクスなど）に特化しており、一般的なビデオ生成モデルほど多様なコンテンツは生成できません。
顔のぼかし: 人間の顔はぼやけて表示されるため、顔を鮮明に表示する用途には適していません。

ローカルにダウンロード

ローカル環境での利用: GPUリソースがあれば、自分のPCでモデルを試すことができます。70億パラメータのモデルはNVIDIA 4090などで試せる可能性があります。

NVIDIAサイトでデモ可能

NVIDIA COSMOSのDiffusionモデルを、https://build.nvidia.com/nvidia/cosmos-1_0-diffusion-7b のサイトで使用する場合、ローカル環境へのモデルのダウンロードは不要です。このサイトは、モデルを試すためのデモページとして機能し、より簡単に利用できます。

デモページへのアクセス:

まず、https://build.nvidia.com/nvidia/cosmos-1_0-diffusion-7b にアクセスします。このページがNVIDIA COSMOSのデモページです。

テキストプロンプトの入力:

デモページのテキスト入力欄に、プロンプト「A first person view from the driver on the Electric Vehicle as it drives along Hollywood Boulevard and Chinese Theater in Los Angels. The camera on moving forward, at a height of 1m above the floor. Photorealistic.」を入力します。

ビデオ生成の開始:

入力後、「Generate Video」ボタンをクリックします。これにより、ビデオ生成プロセスが開始されます。

ビデオ生成の待ち時間:

ビデオの生成には、約1分から1分半程度の時間がかかります。

生成されたビデオの確認:

生成が完了すると、5秒のビデオクリップが表示されます。このビデオは、入力したプロンプトに基づいて、ハリウッド大通りとチャイニーズシアターを走行する車からの視点（一人称視点）の映像を再現しています。カメラの高さは1mで、フォトリアリスティックな映像になっています。

プロンプトの調整:

必要に応じて、プロンプトを微調整し、再度ビデオを生成することも可能です。AIがプロンプトを解釈し、調整することがあるため、結果が異なる場合があります。何度か試行錯誤することで、より希望に近いビデオが得られるでしょう。

注意点:

リクエスト制限: 1つのIPアドレスまたはMacアドレスにつき、1日あたり20件のリクエスト制限がある可能性があるため、注意が必要です。クッキーをクリアすることで、リクエスト数がリセットされる可能性があります。
生成内容の偏り: COSMOSは、特にロボティクスや自動運転のトレーニングデータ生成に特化しているため、一般的なビデオ生成モデルに比べて、生成できる内容に偏りがある可能性があります。このため、プロンプトが期待通りの結果にならない場合もあります。
* 顔のぼかし: 人の顔はぼやけて生成されるため、明確な顔の描写は期待できません。

モデルの詳細情報の確認

モデルカード（Model Card）には、モデルの詳細情報が記載されています。例えば、テキストからワールドを生成する場合、入力は1D（テキスト）ですが、出力はMP4形式の3次元ビデオであることなどが確認できます。
出力されるビデオの長さは5秒で、フレームレートとピクセルサイズも確認できます。
NVIDIA 4090のような高性能なGPUがない場合でも、このデモページを使用すれば、モデルの機能を試すことができます。

要点:

このデモページを使用すれば、ローカル環境にモデルをダウンロードする必要なく、簡単にテキストや画像からビデオを生成できます。
操作は非常に簡単で、テキストまたは画像を入力して「Generate Video」ボタンをクリックするだけです。
生成されたビデオは、ロボティクスや自動運転の分野で利用できるリアルな映像です。
ただし、リクエスト制限や生成内容の偏りなどの制約があることに注意してください。