16秒の1080p映像を一発生成！Viduが挑むSoraの牙城

2024年12月18日 20:48

映像生成の世界に新たな革命が到来しました。中国の生数科技と清華大学が共同開発した「Vidu」は、最先端のAI技術を駆使し、16秒の高解像度映像を簡単に生成可能な画期的なビデオ生成モデルです。その性能は、業界最強とされる「Sora」に匹敵するとされています。今回は、Viduの基本性能や技術的背景、応用の可能性について詳しく解説します。

1. Viduとは何か？

Viduは中国で開発された長時間、高一致性、高動的なビデオ生成AIモデルです。このモデルは以下の特長を持っています：

長時間映像生成：最大16秒の1080p映像を一度に生成可能。
高いリアリティと想像力：現実世界の物理法則を模倣しつつ、創造的なシーンも生成可能。
多視点カメラ切り替え：映画のような多視点映像を実現。

Viduは、テキストプロンプトから映像を生成するだけでなく、光影効果やカメラワークを含むプロフェッショナルな映像技術にも対応しています。

論文：https://arxiv.org/pdf/2405.04233
サービス：https://www.vidu.studio/　　（毎月80の無料クレジットがついてる）

2. 技術的な特徴

U-ViTアーキテクチャの採用

Viduの骨幹となるU-ViTは、DiffusionモデルとTransformer技術を組み合わせた革新的なアーキテクチャです。この技術により、以下が可能になりました：

長いシーケンスの処理：16秒という従来を超える長時間映像を生成。
効率的な圧縮とモデリング：動画データを効率よく圧縮し、高品質な生成を実現。

学習データと自動ラベリング技術

人間によるすべての動画のラベリングが困難なため、ViduはAIベースの自動ラベリング技術を導入。これにより、大規模なテキスト-ビデオペアデータを効率的に作成し、モデルの精度を向上させています。

光影効果とカメラモーション

Viduは映像生成時に光影の変化やカメラの動きを忠実に再現可能。これにより、映像の臨場感や物語性が大幅に向上しました。

3. Soraとの比較

Soraは現在、テキストからビデオ生成を行うモデルの中で最も強力とされています。しかし、Viduも性能で肩を並べると評価されています：

Viduは特に、創造的な映像生成やプロフェッショナルなカメラワークで評価を受けています。

4. 応用例と今後の可能性

応用例

映画・動画制作：多視点映像やリアルな光影を活用した作品制作。
教育分野：実験シミュレーションや歴史再現映像の作成。
マーケティング：短時間で魅力的な広告映像を生成。

改善の余地

現在、Viduは複数の被写体間の物理的な相互作用や、ディテール面で課題が残されています。しかし、今後の技術改良によりさらなる進化が期待されています。

X.com上話題の事例

"Tiny Monsters In The Christmas Tree"🎄🎶

Key frames on @Viduforhuman
Are so good. All these are key frames.
So easy to use. Very little prompting.

Another tool I'll be spending more time with. Very impressive results.

Song done in @sunomusic #ai #AIart #aivideo… pic.twitter.com/eMwp9wLSvf
— ART (@Art_For_Joy) December 1, 2024

🚀 Ready to Create with Vidu-1.5? Check Out the Latest Update! 🚀

We’re excited to share a sneak peek of Vidu-1.5 in action! 🎥 With enhanced Multi-Entity Consistency, you can now create even more realistic and dynamic videos, blending people, objects, and environments like… pic.twitter.com/PVDkWlAseB
— Vidu AI (@Viduforhuman) November 21, 2024

Hi everyone =)

Here’s a quick test of the new update for AI #Vidu 1.5.
The goal is to test the image-to-video function across different styles. 720p.
Changes compared to version 1.0:
✔ Handles a greater variety of styles
✔ Manages distant shots
✔ Much more dynamic#AINews #ai pic.twitter.com/J9nZFGex6b
— Naegiko - AI Creator (@naegiko) November 16, 2024

Check out this ink-style animation of Venom: The Last Dance! Artist reproduces the silky transformation of Venom with freehand brushstrokes, powered by Vidu. Go watch #Venom: The Last Dance# in theatre and enjoy Venom's ever-changing forms on the big screen！@Viduforhuman pic.twitter.com/UWlm7xK25H
— Evan Liao (@evanLiaoQ) November 6, 2024

結論

Viduは、高性能な映像生成技術を一般ユーザーにもたらす可能性を秘めています。Soraに匹敵する性能と豊富な機能は、映像制作の新たなスタンダードとなるでしょう。今後の技術的な進展により、Viduがどのような新しい可能性を開くのか、引き続き注目が集まります。