Mochi 1: これまでで最高のオープンソース動画生成AI!(無料ダウンロード可能)
5,269 文字
今日、動画生成の新たな一歩となるMochi 1(モチワン)がリリースされました。このオープンソースモデルは、AIができる動画制作の限界を押し広げており、キャラクターの動きの滑らかさやプロンプトへの追従性において印象的な進歩を見せています。Mochiは、個人プロジェクトや商用利用にかかわらず、誰もが使えるように設計されています。
このモデルは単なるAIのお知らせではありません。もし試してみたい方がおられましたら、Genmoが無料のホステッドプレイグラウンドを立ち上げており、このモデルを実験できます。もちろん、詳しい仕組みを深く知りたい場合は、Hugging Faceで重みデータも入手可能です。
面白いことに、彼らのブログでは、人工汎用知能(AGI)の右脳を解き放つことが目標やと述べています。人間の脳の右側が創造性と想像力に関連しているように、GenmoはAIにそういった特質をもたらしたいと考えているんです。Mochi 1は、この構想に向けた最初の具体的な一歩なんです。
AIが動画を生成するだけやなく、現実に存在するかどうかにかかわらず、なんでも想像できる没入型のワールドシミュレーターとして機能することを可能にします。Genmoは創造性に焦点を当てることで、これまで手の届かなかった方法で新しい可能性を視覚化し、魅力的な物語を語り、想像的なアイデアを実現できるAIを作ろうとしています。
このモデルは明らかに素晴らしく、これまでオープンソースがこのレベルで動作するのを見たことがありません。しかし、Genmoは少し違うアプローチを取りました。
今日、動画生成モデルと現実の間には大きなギャップがあります。私が何度も話してきた問題ですが、現在のモデルは動きを自然に見せることやユーザーの指示に正確に従うことに苦労することが多いんです。動きの品質とプロンプトへの追従性、この2つの重要な領域で動画はまだ不足しており、結果として動画出力がぎこちなくなったり、ユーザーが思い描いたものと一致しなかったりするんです。
Mochi 1は、オープンソースの動画生成において新しい最高水準を設定し、さらに主要な非公開モデルとも競合します。Mochi 1の480pプレビュー版では、以下の分野で優れた性能を発揮しています。
プロンプトへの追従性について、Mochi 1は与えられたプロンプトとの例外的な一致を示します。これは生成される動画がユーザーの指示と密接に一致することを意味し、キャラクター、設定、アクションなどの要素を詳細にコントロールできます。
この高い精度を確保するため、Mochi 1はOpenAIのDALL-E 3で使用されているアプローチと同様の、ビジョン言語モデルを使用した自動メトリクスでベンチマークを行いました。Gemini 1.5 Proを使用して、これらの生成された動画がユーザーの意図した説明と一致しているかを評価しました。
このような新しいオープンソースモデルの優秀さを理解するために、プロンプト追従性のリーダーボードを見てみましょう。Open Sora、Pika、Flow P、Collapse、Runway ML Gen 3、さらにはCling、Luma Dream Machineなど、そしてトップには新しい先導的モデルであるGenmo Mochi 1プレビューがあります。
これは拍手に値すると思います。人数は少ないですが、オープンソースモデルでこんなに短期間で他のすべてのモデルを追い抜くことができたということは、別のチームであっても主要な研究所に追いつけることを示しています。
プロンプト追従性に焦点を当て、実際にユーザーが望むものを確実に得られるようにするという異なるアプローチを取ることで、このグラフが示すように、まさにそれが実現されているんです。
動きの品質においても優れた性能を発揮します。Mochi 1は動きの品質においても大きな改善をもたらしました。生成された動画におけるキャラクターの動きの滑らかさは、ほとんどのAIモデルにとって課題となっており、不自然またはロボット的な動作につながっていました。
Mochi 1はこれらの問題に対処し、流動的で生き生きとした動きを作り出すことで、コンテンツ全体のリアリズムを高め、より魅力的で視覚的に楽しいものにしています。
動きの品質のELOスコアを再度見てみると、Genmoの Mochi 1プレビューは、Clingのような有名なモデルと並んで、非常に有名なRunway Gen 3やLuma Dream Machine、さらにはClingをも上回っているのが分かります。これは驚くべきことです。
これは、Mochi 1とGenmoチームが信じられないほど素晴らしいことを成し遂げたということを意味します。オープンソースチームがプロンプト追従性と動きの品質において、業界のライバルを上回る可能性のある新しい動画モデルを提供しようとしているなんて言われても、そんなことはあり得ないと言っていたでしょう。
しかし、今日も再び、動画分野は次々と新しい競合者によって挑戦され続けているのを目の当たりにしています。そしてこれは多くの場合、ユーザーにとってより良い経験につながります。なぜなら、より多くの選択肢が得られるからです。
結果の一部は驚くかもしれません。Mochi 1は30fpsで動画を生成し、滑らかな視覚体験を作り出すのに役立っています。Mochi 1が生成する動画は最大5.4秒間続き、時間的な一貫性を維持します。これは、動きが急激な飛躍や不整合なく、自然に1フレームから次のフレームへと流れることを意味します。
また、リアルな動きのダイナミクスと物理シミュレーションも備えています。Mochi 1は、流体力学(液体の動き)、毛皮や髪のシミュレーション、自然な人間の動作など、リアルな物理をシミュレートします。
これにより、キャラクターのアニメーションがより生命感のあるものになります。例えば、水や毛皮のある動物が登場するシーンでは、Mochi 1はこれらの細部がリアルな方法で動くことを保証し、不気味の谷を超える信憑性のレイヤーを追加します。これは、AI生成の映像が非常にリアルになり、視聴者から感情的な反応を引き出し始める地点です。
Mochi 1は動きの品質に焦点を当てました。Mochi 1の性能を評価する際、人間の評価者は各フレームの細部よりも、動きの品質に特に注目するよう求められました。動きの面白さ、リアルさ、流暢さなどの基準が使用されました。
もちろん、その性能を測定するために、LMSチャットボットアリーナで使用されるものと同様のプロトコルを使用してELOスコアが計算されました。このようなスコアリングは、ゲームやランキング競争でよく使用されます。これは基本的に、これらのモデルを並べて比較し、もちろんMochiがほとんどのシナリオでトップに立ったということです。
このモデルは本当に信じられないほど素晴らしいと思います。ほとんどの人が不可能だと思っていたことを彼らは成し遂げました。そして、その多くは彼らが使用したアーキテクチャによるものだと思います。これも非常に魅力的です。
実際にアーキテクチャを見てみると、Mochi 1はオープンソースの動画生成において大きな進歩を表していることが分かります。AsymD(非対称拡散トランスフォーマー)と呼ばれるアーキテクチャに基づく、巨大な100億パラメータの拡散モデルを使用しています。
簡単に言えば、このモデルが非常に強力なのは、動画コンテンツを理解し生成するのに役立つ、これだけ多くの微細な設定(パラメータ)を持っているからです。AsymDは、プロセス全体をより効率的にするように設計された新しい種類のアーキテクチャです。
Mochi 1は完全に一から構築されており、古いものの単なるアップグレードではありません。これは公開されている中で最大の動画生成モデルであり、開発者が自分のニーズに合わせて調整やハックができるほどシンプルな設計になっています。
もちろん、これらのモデルを実行するには多くの計算能力が必要なので、GenmoはMochi 1をできるだけ効率的にすることに焦点を当てました。Mochi 1と並んで、GenmoはVideo VAE(変分オートエンコーダー)も公開しています。
VAEは非常に重要です。なぜなら、動画情報を128倍も小さいサイズに圧縮するからです。これは、動画を空間的・時間的に分解し、複雑さを減らすことで実現しています。これにより、Mochi 1の実行に必要な計算能力が少なくなり、より多くの人が利用できるようになります。
AsymDの仕組みについて知りたい方に説明すると、このアーキテクチャはユーザーのプロンプトと動画トークンの両方を効率的に処理します。テキストだけでなく、動画の視覚的な部分の理解に多くの処理能力を集中させます。
マルチモーダル自己注意機構と呼ばれるものを使用し、テキストプロンプトと動画コンテンツの両方を同時に見て、それらがどのように連携すべきかを理解します。これはStable Diffusion 3の仕組みと似ていますが、重要な違いが一つあります。
Mochi 1は、より多くのパラメータを視覚に割り当てることで、動画部分により多くの焦点を当てています。結果として、モデルはよりリアルで詳細な動画コンテンツの生成が得意になります。
興味深いことに、多くの動画生成モデルはプロンプトを理解するために複数の事前学習済み言語モデルを使用しており、これはかなり複雑になる可能性があります。しかし、Mochi 1はT5 XXLという単一の強力な言語モデルを使用してすべてのプロンプトを処理することで、これを単純化しています。
これにより、モデルがはるかに簡単で効率的になり、なおかつユーザーの入力を効果的に理解し生成できることを保証します。Mochi 1は非常に大量の動画情報を処理できるように設計されており、正確には44,5120個の動画トークンを一度に処理できます。
トークンは基本的に動画を構成する小さなデータの一部のようなものです。各部分がどこにあるべきかを確実に把握するために、Mochi 1は3次元に拡張可能な学習可能な回転位置埋め込み(RoPE)という技術を使用しています。これは空間と時間の両方をカバーし、モデルがビデオで起こっているすべてのことを追跡し、一貫性のある構造の整ったシーンを生成するのに役立ちます。
これはまた、モデルのより良い、より速い学習を助けるSwiGLO フィードフォワード層のような、AIモデル設計における最新の進歩の恩恵も受けています。クエリキー正規化を使用してトレーニングをより安定させ、サンドイッチ正規化を使用して内部活性化(モデルが作動しているときに点灯する部分)を制御下に置きます。
これらの調整により、モデルが不安定になることなく、スムーズに実行され、高品質な出力を生成することが保証されます。Genmoは、動画生成の進歩を促進するために、すべての詳細を含む技術論文を公開すると述べていますが、これは本当に信じられないほど素晴らしいと思います。
Genmoチームが次に何を準備しているのか気になる方のために、それはここにあります。Mochi 1 HDです。Mochi 1 HDは、向上した柔軟性と、複雑なシーンでのワーピングなどのエッジケースに対応する動きを備えた720p動画生成をサポートします。
GenmoのMochi 1は非常に素晴らしいものの、いくつかの既知の制限があります。例えば、最初のリリースでは480pで動画を生成します。これはもちろんHDではありません。また、極端な動きのあるエッジケースでは、軽微なワーピングや歪みが発生することもあります。
これを何に使用したいかと考えている方のために、Mochi 1は写実的なスタイルに最適化されているため、アニメーション的なコンテンツでは十分な性能を発揮できません。また、コミュニティが様々な美的嗜好に合わせてモデルを微調整することを予想しています。
これは、今後数週間から数ヶ月の間に、さらに良い特殊化されたバージョンのこの動画モデルが登場する可能性が高いということです。
ウェブページに行くと、トップクリエイションの一つに私が本当に気に入ったものがありました。これは、このモデルがOpenAI Soraに対してどれだけ良い性能を発揮するかをテストしたもので、東京のダウンタウンを歩くスタイリッシュな女性の映像がかなり良く見えます。
このウェブページには、あなたの興味に応じて確認できる他の例もありますが、品質のレベルとコントロールのレベルを考えると、このモデルは本当に魅力的なものだと思います。