メタの『MovieGen』AIが、AIの世界に衝撃を与えた(テキストから動画を生成するAI)
6,443 文字
ほな、メタ社がメタのムービージェンを発表しとるんやけど、まずはこの短い動画を見てもらって、それからびっくりするような詳細について説明させてもらいますわ。
動画を見てもらったら分かると思うんやけど、メタ社がAIの分野でかなり過小評価されてる先駆者の一つやということがはっきりしますな。実際、メタのムービージェンの登場は、AI業界の多くの人にとって驚きやったんです。
短い動画を見ていただいて、なんでみんなが驚いたんかがよう分かると思います。この短い動画では、ランウェイ社のジェン3アルファなど、他の最先端システムと比較されてましてな。様々なタスクでそれらを上回る性能を見せとるんです。
これは、私みたいなAI業界の人間にとっては驚くべきことやったんです。なぜかって言うと、メタ社が動画用の基盤モデルを出してきて、動画だけに特化した他の企業を追い抜くなんて予想してなかったからです。
ラマ3の開発に忙しいと思ってたメタが、実は高品質な動画生成にも取り組んでたってことで、みんな驚いたわけですな。
このソフトウェアの多くの例が、ソラとも比較されとるんですけど、現時点では多くの場合、ソラのモデルを凌駕してるんです。メタ社はこれを効果的に行うための革新的な方法を見つけ出して、なんとかトップに立ったみたいです。
これはAIの分野で最も驚くべき進展の一つやと思います。そして、この技術が私たちの予想を上回るスピードで進化してるってことを示す好例やと思いますわ。
これらの例は本当に素晴らしいんですけど、メタのムービージェンが提供する4つの主要機能について、さっと説明させてもらいます。
まず、モデルのサイズについて説明させてもらって、それから機能の詳細に入りますわ。
最初に、メインのムービージェンモデルが300億パラメータ。次に、音声クリップを生成するムービージェンオーディオが130億パラメータ。それから、パーソナライズドムービージェンビデオっていう事後学習の拡張機能があって、最後にムービージェンエディットっていう動画編集用の事後学習拡張機能があります。
つまり、2つのモデルがあって、そのうちの1つに2つの拡張機能がついてて、動画をカスタマイズできるようになっとるわけですな。
ほな、いくつかの動画例を見ていきますけど、見る時に注目してほしいのは、普段見落とすようなことなんです。例えば、照明とか物理法則とかに注目してください。これらは、動画生成器が特に苦手とするところなんです。
例えば、この動画では物理法則と全体的な照明が非常に良く見えます。AIの動画生成器で照明を上手く表現するのは難しいんです。照明は多くのものに影響を与えるからです。
多くの異なる表面や反射がある場合、リアルな照明を再現するのは非常に難しいんです。でも、この動画では彼の体の周りの照明や地面の照明が、彼の前に見えるものと正確に一致してるんです。
これらは、動画を分析する時に私が注目するポイントで、それが実際に効果的かどうかを判断するんです。この点で、このモデルは間違いなく優れてると思います。
この要約のテキスト入力は「カメラは男性の後ろにあり、男性は上半身裸で腰に緑の布を巻いている。裸足で、手に火のついた物を持ち、大きな円を描くように動かしている。背景は穏やかな海で、火の舞で雰囲気が魅惑的」というものでした。
プロンプトへの忠実度がかなり高いことが分かりますな。
もう一つ例がありまして、正直に言うと、メタのウェブサイトで紹介されてる例の中で、これが一番のお気に入りです。
ただ、ピンクのサングラスをかけたナマケモノが、プールに浮かぶドーナツの浮き輪の上で横になって、トロピカルドリンクを飲んでるだけなんです。テキスト入力は「ピンクのサングラスをかけたナマケモノがプールのドーナツ型の浮き輪の上で横になっている。ナマケモノはトロピカルドリンクを持っている。世界はトロピカルで、日光が影を落としている」というものです。
これが特に良いと思うのは、多くの人が左側の背景に注目しないかもしれませんが、左右の水面の反射がとても効果的に見えるからです。これは先ほど言ったように、私が注目する重要なポイントの一つなんです。
また、影にも注目してます。最初は気づかなかったんですけど、よく分析してみると、面白いことに気づきました。このナマケモノが右から左へ水面を移動するにつれて、顔の影が実際にコントラストを付けてるんです。
影と日光が出たり入ったりしてるのが見えて、木の下にいることで照明が動的に変化してるんです。これらの影が浮き輪の下を通過する時、効果的に見えるのがわかります。これがリアリズムを高めてる要因やと思います。
だからこそ、このモデルが本当に効果的やと思うんです。時々、モデルはこういった細かいところで苦戦することがあって、私たちは気づかないかもしれません。でも、すべてがうまくいってる時、こういった細かいところがシステムをめっちゃリアルに見せるんです。
他にも野生動物の例がありまして、これは「白い毛の赤面ザルが天然の温泉で水浴びをしている。ザルは木製の白い帆と小さな舵がついたミニチュアの帆船で遊んでいる。温泉は緑豊かな木々と岩に囲まれている」というプロンプトです。
これも非常に効果的なデモンストレーションですな。非常に微妙な変形はありますが、他のモデルでも見られるようなもので、正直言って、これほど難しいものを正確に再現できるとは思ってもみませんでした。
例えば、1番目のザルの反射を見てみると、かなり正確です。もちろん、ボートの反射も見えます。ボートが前に進むにつれて波紋が見えるのも素晴らしいですな。ザルの足も見えますし、水面下のザルの手も見えます。
これは本当に効果的です。この技術が近い将来利用可能になるなんて、信じられないくらいです。他の企業もこれの別バージョンに取り組んでますけど、さっきも言ったように、細部まで注目して、見てるものが本物じゃないって気づいた時、これは本当に見過ごせないものなんです。
最後にもう一つクリップがありまして、ビーチを走る少女がカイトを持ってる様子です。ジーンズのショートパンツと黄色のTシャツを着てて、太陽が照りつけてます。
これも非常に効果的やと思います。このクリップが示したかったのは2つのことやと思います。まず、ダイナミックな物理表現が非常に優れてるってことです。
動画編集者が常に苦労してるのは、脚が効果的に走るように見せることです。2秒以上の動画クリップでは、時々脚がより多く見えたり、速くなったり遅くなったりするように見えることがあります。でも、この動画ではそういった問題が全くありません。
これは上手く表現するのが難しいので、彼らがそれを示したかったんやと思います。他にも気づいたことがあって、皆さんは見逃してるかもしれません。
少女が砂の上を歩く時、足跡が砂を拾い上げてるのが見えます。足が砂の上に置かれる時に、これらの足跡が残されてるのが分かります。これも物理法則の正確な検出の良い例ですな。
ちょっと言っておきたいんですけど、この動画デモンストレーションでは、失敗した部分は全く示されてません。例えば、私たちがこれにアクセスできるようになった時、失敗する部分も見えるかもしれません。でも、ここで示されてるのは本当に素晴らしい例です。
メタのムービージェンは非常に過小評価されてると思います。なぜなら、このような能力をすぐに持てるってことは、このような編集の一貫性を考えると信じられないくらい凄いことやからです。
ビデオテキストによる編集機能もあって、これがどれだけ効果的かが分かります。左上に元の動画があって、他に3つのバージョンの動画があるのが見えます。
彼の手に火花を追加してるのが見えますが、さっきも言ったように、もう一度照明に注目してください。彼の手が下がる時、顔に注目すると、入ってくる光を考慮して顔が少し橙色になってるのが分かります。
そして、手が離れると、照明があまりなくなって、正しく影が付いてるのが分かります。ここに光があって、顔のすべての部分が正しく照らされてるのが見えます。これは本当に素晴らしいですな。
例えば、ここでも背景が正しい遠近法を保ってるのが分かります。これは非常に効果的です。背景もぼやけてるのが分かりますが、これがこの動画を見た時のリアリズム効果を高めてて、とても良いと思います。
もちろん、最後のやつでは空をオーロラに変えてるのが見えます。これも素晴らしいですな。
ここでは、背景を屋外のスタジアムに変更するよう指示してますが、シャツを青に変更するとは言ってません。モデルがそうするつもりだったのかどうか分かりませんが、それでも素晴らしく見えます。
もう一つ例があって、これは間違いなく最も効果的な例の一つやと思います。元の動画は砂漠を走る男性の様子が非常に良く見えます。
そして、テキスト入力で「彼の手に青いポンポンを追加する」と指示してます。手にポンポンが追加されてるだけでなく、この人が走ってる時のポンポンの動きの物理法則もかなり正確です。
また、サボテンの砂漠に変えることもできますし、走る服を膨らむ恐竜の着ぐるみに変えることもできます。これの一番良いところは、さっきも言ったように、単に動画を別の動画に適応させるだけじゃなくて、その人がその服を着てたらどう見えるかを正確に再現してることです。
膨らむ恐竜の着ぐるみを見たことがある人なら分かると思いますが、頭がちょうどそんな感じでボブのように動くんです。これを見るのは本当に面白いですな。
もちろん、ポンポンのやつでも、こんな風に走ってるのを見るのは面白いです。微妙な変化で各動画がどう変わるかを見るのは、かなりクールですな。
ここからが、将来的な応用が見えてくる部分です。例えば、生成型のビデオエフェクトなんかにも使えそうです。ここでは大雨を追加できるのが分かります。これはある程度リアルに見えます。
ただ、この例では服が濡れたりとか、そういった細かい物理的な効果は追加されてません。そういったことを追加するのはかなり難しいので、近い将来には実現するかもしれませんが、今のところはそこまでいってません。
でも、背景をカーニバルに変えるとか、後ろのぼかし効果とか、3Dメガネを着用させるとか、そういった他の細かいところは本当に良く見えます。
この3Dメガネの例は特に素晴らしいと思います。なぜかというと、もし3D追跡を物体にやろうとしたことがある人なら分かると思いますが、ソフトウェアはその物体のすべてのデータポイントを取得しようとするんです。従来の追跡では、複数のポイントを追跡して、そこに3Dオブジェクトをピン留めするんですけど、AIを使えば自動的にそれができるソフトウェアが出来そうです。これは本当にすごいことで、多くの人の時間を節約できるでしょうな。
テキストからプロンプトを作る部分の最後の例もありますけど、これもまた非常に効果的やということが分かります。
これは非常に効果的で、多くの異なる用途があると思います。将来的には、こういう方法で動画編集が行われるようになるんちゃいますかね。
プレミア・プロとか、キャップカットとか、ダヴィンチ・リゾルブとかの編集ソフトを使ってる時に、ボタンをポチッと押すだけで「ここを変えて」「あそこを変えて」って言えるようになるんちゃうかな。
完全に洗練されるまでにはまだ数年かかるかもしれませんが、これは間違いなく時間の節約になりますわ。特に今の映画製作者にとってはね。
もう一つ非常に興味深い例があって、それはパーソナライズされた動画です。多くの異なるAIシステムでパーソナライズされた画像を作れるようになってますから、メタがパーソナライズされた動画を出してきたのは驚くべきことではありません。
ここでは1枚の画像だけを使って、この男性の姿を正確に再現できてるのが分かります。1枚の画像だけでこれができるってのは本当にクールなことやと思います。普通はこれくらい効果的に見せるには、たくさんの異なる画像が必要になるんですからね。
このパーソナライゼーションの効果の例がもっとあって、これも本当に素晴らしいです。某コンテンツクリエイターたちは、きっとこれを楽しむんやろうなぁ。私も何人かの顔でこれをテストしてみようと思います。マーク・ザッカーバーグが馬に乗ってるとか、普段はしないようなことをしてる面白い動画が見られるかもしれませんね。
次に、これから見ていくのは、このシステムから出てきた最高のものの一つで、これには本当に驚かされました。それは、ムービージェンのビデオから音声への機能です。
こういったソフトウェアの例はいくつか見たことがありますが、これは本当に魅力的でした。基本的に、ここにあるのは、マッチングするサウンドトラック付きの大規模な動画データセットで訓練されたシステムです。
このモデルは、異なる音を異なる特定の動画にマッチさせる方法を学習しました。いくつかの動画をお見せして、それからこれがどのように機能するかについて詳しく説明しますが、まずは動画を入力プロンプトとして見た時にモデルが生成した異なる音を聞いてもらいたいと思います。
音声が本当に良かったのがお分かりいただけたと思いますが、これがどのように機能するかというと、モデルは動画フレームを取り込んで、それらを処理して、その映像に合わせるべき音を予測するんです。
例えば、動画で車が走ってるのが見えたら、モデルはエンジン音やタイヤのキーキー音、周囲の街の喧騒なんかの音響効果を生成します。これは、動画で何が起こってるかを理解して、適切な音響効果を生成することで実現してるんです。
このシステムは異なるタイプの音声を生成できます。例えば、場面で直接起こってることから出る音(ダイジェティック・サウンド)があります。それから、背景音楽や雰囲気を作り出す音(非ダイジェティック・サウンド)もあります。例えば、カーチェイスのシーンで緊迫感のある音楽を流すような、動画では実際に起こってないけど、雰囲気に合う音ですね。
ムービージェンモデルは、48kHzという映画の音響標準の高品質な音声を生成できます。これは、このモデルが生成する音声がクリアでプロ品質ってことで、映画やゲーム、その他のメディアコンテンツに使えるレベルってことです。
このモデルは、音声を動画にマッチさせるだけじゃなく、数分間の長い動画用の一貫性のある長い音声トラックも作れます。時間とともに自然に延長される音を作るように設計されてるので、音声が連続的でリアリスティックに感じられるんです。
この音声モデルは、何百万時間もの動画と音声データで訓練されました。訓練中に、画面で起こってることと、それに対応して生成されるべき音との物理的な関係を学習しました。
もちろん、音声が感情を高めたり、緊張感を作り出したり、シーンの雰囲気を確立したりするような、動画における音声の心理的な側面も学習しました。
このシステムは、誰かが水に飛び込んだ時のスプラッシュ音など、非常に効果的な音を生成します。花火が最初に打ち上がった後に爆発する音なんかも聞こえるんです。
最初の訓練の後、このモデルは高品質の動画と音声データの小さなセットでファインチューニングされました。このファインチューニングのステップが、生成される音の全体的な品質を向上させ、高級な制作で聞くような洗練された映画的な感じにするのに役立ってるんです。
全体的に見て、これは画期的な一歩やと思います。サウンドトラックやバックグラウンドミュージックをほぼ自動的に作れるものができたわけで、こんなレベルの品質のものが出てくるとは予想してませんでした。