![見出し画像](https://assets.st-note.com/production/uploads/images/170136546/rectangle_large_type_2_f47580640f6693a264c4234badb5de83.png?width=1200)
NVIDIA COSMOS世界基盤モデル:OpenAIに替わり物理AIで世界覇権を狙う
NVIDIA COSMOSとは何者
NVIDIA COSMOSは、NVIDIAがCESで披露した世界基準モデルです。テキストやビデオから物理現象を理解したビデオを生成できるモデルで、特にロボット工学や自動運転のトレーニングデータの生成に重点を置いています。
![](https://assets.st-note.com/img/1736934689-Tflm8bikzDVc2G6AMPvFYsjH.png?width=1200)
COSMOSはSoraとは全く異なります
データセット: 2000万時間のロボティクスと運転データを使用しており、リアルデータとAI生成のシンセティックデータを組み合わせています。
物理的な認識: 周囲の状況を意識したビデオ生成が可能です。
オープンソース: ハギングフェイスからモデルをダウンロードし、ファインチューニングできます。
モデルサイズ: NAN(小)、スーパー(中)、ウルトラ(大)の3つのサイズがあります。
セキュリティ: 不適切なコンテンツの生成を防ぐためのセキュリティ対策が施されています。
マルチモーダル: テキスト、ビデオ、画像からビデオ生成が可能です。
商用利用: 個人利用だけでなく、商用利用も可能です。
![](https://assets.st-note.com/img/1736934725-YQk8oVbURGLsPypCFOic5WBN.png?width=1200)
COSMOSの利用
テキストからビデオ: テキストプロンプトに基づいてビデオを生成できます。例えば、「Hollywood Boulevardを走る自動運転車」というプロンプトでビデオを生成できます。
ビデオからビデオ: 入力ビデオに基づいて新しいビデオを生成できます。
画像からビデオ: 画像を入力として、それに基づいたビデオを生成できます。例えば、道の画像から自動運転のビデオを生成できます。
サンプル: NVIDIA COSMOSのウェブサイトで、サンプル動画とそのプロンプトを確認できます。
![](https://assets.st-note.com/img/1736934750-aZv6zRfxTrepgn0Doml7UJts.png?width=1200)
![](https://assets.st-note.com/img/1736934778-0gkIwRjo7vl4HTLNAD2dxFsE.png?width=1200)
制限事項
データの偏り: 特定のシーン(運転、ロボティクスなど)に特化しており、一般的なビデオ生成モデルほど多様なコンテンツは生成できません。
顔のぼかし: 人間の顔はぼやけて表示されるため、顔を鮮明に表示する用途には適していません。
ローカルにダウンロードできる
ローカル環境での利用: GPUリソースがあれば、自分のPCでモデルを試すことができます。70億パラメータのモデルはNVIDIA 4090などで試せます。
NVIDIAサイトでデモ可能
![](https://assets.st-note.com/img/1736902052-bBRLMZpkdDNVn5IYJsefqCaS.png?width=1200)
NVIDIA COSMOSモデルを、https://build.nvidia.com/explore/discoverのサイトで選択出来ます。ローカル環境へのモデルのダウンロードは不要です。このサイトは、モデルを試すためのデモページとして機能し、より簡単に利用できます。
Diffusion Modelデモページへのアクセス:
![](https://assets.st-note.com/img/1736902130-urxB734FObhVpozeJMavctYC.png?width=1200)
まず、https://build.nvidia.com/nvidia/cosmos-1_0-diffusion-7b にアクセスします。このページがNVIDIA COSMOSのデモページです。
テキストプロンプトの入力:
![](https://assets.st-note.com/img/1736902303-zh0OvWfCd5pFZq8k4b7iYV2X.png?width=1200)
ページにはあらかじめ用意されいるサンプルのプロンプトと動画が示されています。
![](https://assets.st-note.com/img/1736902502-hb7CpOUEjrQ0S9DgRtza4ifT.png?width=1200)
デモページのテキスト入力欄に、プロンプト「A first person view from the driver on the Electric Vehicle as it drives along Hollywood Boulevard and Chinese Theater in Los Angels. The camera on moving forward, at a height of 1m above the floor. Photorealistic.」を入力します。
ビデオ生成の開始:
入力後、「Generate Video」ボタンをクリックします。これにより、ビデオ生成プロセスが開始されます。
ビデオ生成の待ち時間:
ビデオの生成には、約1分から1分半程度の時間がかかります。
生成されたビデオの確認:
![](https://assets.st-note.com/img/1736902544-I34GKX80mlJyTbgCfNW2POzh.png?width=1200)
生成が完了すると、5秒のビデオクリップが表示されます。このビデオは、入力したプロンプトに基づいて、ハリウッド大通りとチャイニーズシアターを走行する車からの視点(一人称視点)の映像を再現しています。カメラの高さは1mで、フォトリアリスティックな映像になっています。アメリカのロサンゼルスの火事が気になっているので、昔ドライブしたことがある。ハリウッドブルバドのチャイニーズシアター周りを描かせることにしました。
Cosmosが実際に使用したプロンプト
Experience the thrill of an electric vehicle gliding through the heart of Los Angeles, as the camera captures a first-person perspective from the driver's seat. The sleek, modern dashboard glimmers under the soft glow of the setting sun, while the windshield frames iconic landmarks like the Chinese Theater and the bustling Hollywood Boulevard. The camera, mounted at a height of one meter above the floor, smoothly pans forward, revealing the vibrant cityscape alive with pedestrians and fellow vehicles. The electric motor's hum is a testament to the vehicle's eco-friendly power, contrasting with the traditional gas-powered cars that share the road. This cinematic journey immerses viewers in the dynamic energy of the city, showcasing the seamless integration of technology and urban life, all captured with stunning clarity and rich color grading.
プロンプトの調整:
必要に応じて、プロンプトを微調整し、再度ビデオを生成することも可能です。AIがプロンプトを解釈し、調整することがあるため、結果が異なる場合があります。何度か試行錯誤することで、より希望に近いビデオが得られるでしょう。
Hawaii Waikiki Boulevardを走る自動運転車から見える景色も試した
![](https://assets.st-note.com/img/1736903205-Zn5EbpasBhF9Y78gy3WecODG.png?width=1200)
注意点:
リクエスト制限: 1つのIPアドレスまたはMacアドレスにつき、1日あたり20件のリクエスト制限がある可能性があるため、注意が必要です。クッキーをクリアすることで、リクエスト数がリセットされる可能性があります。
生成内容の偏り: COSMOSは、特にロボティクスや自動運転のトレーニングデータ生成に特化しているため、一般的なビデオ生成モデルに比べて、生成できる内容に偏りがある可能性があります。このため、プロンプトが期待通りの結果にならない場合もあります。
* 顔のぼかし: 人の顔はぼやけて生成されるため、明確な顔の描写は期待できません。
モデルの詳細情報の確認
![](https://assets.st-note.com/img/1736902930-DozS1rcKNI3WkBH9ZmpuOA56.png?width=1200)
モデルカード(Model Card)には、モデルの詳細情報が記載されています。例えば、テキストからワールドを生成する場合、入力は1D(テキスト)ですが、出力はMP4形式の3次元ビデオであることなどが確認できます。
出力されるビデオの長さは5秒で、フレームレートとピクセルサイズも確認できます。
NVIDIA 4090のような高性能なGPUがない場合でも、このデモページを使用すれば、モデルの機能を試すことができます。
要点:
このデモページを使用すれば、ローカル環境にモデルをダウンロードする必要なく、簡単にテキストや画像からビデオを生成できます。
操作は非常に簡単で、テキストまたは画像を入力して「Generate Video」ボタンをクリックするだけです。
生成されたビデオは、ロボティクスや自動運転の分野で利用できるリアルな映像です。
ただし、リクエスト制限や生成内容の偏りなどの制約があることに注意してください。