動きのあるT2V : MagicTime 論文解説

2024年5月29日 11:09

動きのあるAnimateDiff、MagitTimeの論文を解説します。
私もまだ初学者であり、説明が間違っていたり勘違いによる記述が含まれている場合がありますので、ぜひコメントなどをいただけたら幸いです。

論文情報

今回解説する論文はこちらです。

論文サイト

概要

テキストから動画生成（T2V）の分野は急速に進化し、Animate Diffなど、テキストから高品質な一般動画を生成する技術が著しい成功を収めています。しかし、既存のモデルは現実世界の物理知識を十分にエンコードしておらず、生成される動画は限定的な動きやバリエーションに乏しいという問題があります。この論文では、MagicTimeと呼ばれる新しいモデルを提案し、現実世界の物理知識を学習し、メタモルフィックな動的ビデオを生成することに焦点を当てています。

MagicTimeは以下の3つの主な革新を特徴としています：

MagicAdapter: 空間的および時間的なトレーニングを分離し、動きのある動画からより多くの物理知識をエンコード
Dynamic Frames Extraction: 幅広い変動範囲を持つメタモルフィックタイムラプス動画に適応するためのフレーム抽出戦略。
Magic Text-Encoder: メタモルフィック動画のプロンプトの理解を向上させるためのテキストエンコーダー。

さらに、動きのある動画生成能力を解放するために新たな動画データセット「ChronoMagic」作成しています。

Chrono Magic データセット

ChronoMagicデータセットは、インターネットから収集された高品質のタイムラプス動画とテキスト記述から構成されています。このデータセットは、メタモルフィックタイムラプス動画の生成能力を検証するために使用されます。タイムラプス動画は、オブジェクトの完全な変化プロセスを詳細に記録しており、一般動画よりも多くの物理知識を伝えることができます。データ収集プロセスでは、YouTubeから「タイムラプス」という検索用語を使用して元のビデオを取得し、短いタイトル、低い再生回数、またはハッシュタグのないビデオを除外するフィルタリングを用いてデータの収集を行っています。また、関係のないハッシュタグ（例：「YouTube」、「video」、「shorts」）を持つビデオも除外し、最終的に2,265本の高品質タイムラプスビデオを収集しています。このような変化の多いビデオを、今後「動的ビデオ」と呼びます。

Cascade Preprocessing
オリジナルビデオの複雑なシーン転換は、モデルの時間的関連性の学習に影響を与えるため、この問題を解決する方法を見つける必要があります。この論文ではOpenCVとCLIPを用いてシーン転換を検知し、それぞれのデータに転換点が複数表れないように調整します。しかし、検出エラーが生じてしまう場合もあるため、最終段階では誤って切り取られたセグメントを手動で修正し、最終的なデータセットを作成しています。

Multi-view Text Fusion
ChronoMagicデータセットの言語モダリティには、タイトル、ハッシュタグ、キーフレームキャプション、ビデオキャプションなどのマルチビュー・テキストが含まれているため、これらを活用してラベルの精度を向上させます。ビデオでは、タイトルが主要なテーマとアクションを強調し、ハッシュタグがフォーカスとダイナミクスを示します。これらのタイトルとハッシュタグだけを用いても高品質のキャプションを生成することができますが、インターネット上の誇張されたタイトルとハッシュタグは、キャプションの質を低下させることがあります。これを解消するために、本論文ではGPT-4Vを用いてタイトルとハッシュタグからキーフレームキャプションを生成し、モデルのバイアスを減らし、空間的なビデオ情報を捉えます。さらに、時間的なビデオ情報も取り入れるため、キーフレームキャプションからビデオ全体の包括的な表現を導き出し、最終的なビデオキャプションを生成します。さらに、この段階では、GPT-4Vがビデオがタイムラプスであるかどうかを評価し、データループを形成します。

提案手法

MagicAdapter

事前訓練されたT2Vモデルを変化のあるビデオ生成に適応させるために、本論文ではトレーニングプロセスを空間トレーニングと時間トレーニングの2つの段階に分離します（上図を参照）。ビデオ生成モデルは空間レイヤーと時間レイヤーで構成されており、前者は視覚的に関連するコンテンツの学習に焦点を当て、後者はフレーム間の連続性を構築します。インターネット上のビデオデータには、削除できない透かしが含まれていることが多いため、空間トレーニングと時間トレーニングを分離し、空間モジュールが透かしではなく対象に集中できるようにすることで、時間レイヤーが動的ビデオの動きパターンを学習しやすくなります。

これを達成するために、初期のトレーニング段階では、事前訓練されたモデルから時間レイヤーを削除し、MagicAdapter-S を空間レイヤーに統合します。次に、残りのモデルパラメータを固定し、ChronoMagicデータセットのキーフレーム-テキストペアを使用してトレーニングを行います。

ビデオ生成モデルにとって高い時間的一貫性を確保することは重要です。一般的なビデオは局所的なセグメント内の一貫性を必要としますが、動的ビデオはビデオ全体を通して一貫性と動的なプロセスの両立が必要です。ここで一般的なビデオとともにトレーニングを行うと、動的ビデオに対する新しい理解が妨げられる可能性があります。これを軽減するために、一般的なビデオと動的ビデオのトレーニングを分離し、モデルが一般的なビデオを生成する能力を維持します。

具体的には、第2のトレーニング段階で、最初の段階からの事前訓練された時間レイヤーを再導入し、すべてのパラメータを固定し、MagicAdapter-Tを時間レイヤーに提案します。その後、他のパラメータを固定し、ChronoMagicデータセットのビデオ-テキストペアを使用してトレーニングを行います。MagicAdapter-Tは物理的知識を統合し、動的動作を予測することで、モデルの動的ビデオ生成能力をさらに向上させます。

Dynamic Frames Extraction

Animate Diff などのオープンソースのアルゴリズムは、ランダムな連続するNフレームをサンプリングしてトレーニングを行います。しかし、このアプローチはビデオ全体の一部しか捉えず、単調な動作や振幅の制約といった限界をもたらします。これは動的ビデオのトレーニングフレームを抽出するのに適していません。

本論文ではChronoMagicのビデオデータからNフレームを均等、またはランダムに離散的にサンプリングすることで、生成モデルの物理現象の理解を向上させる手法を用いています。

転換点Tiが一定以上の場合等間隔、そうでない場合
ランダムに抽出したnフレームを学習に用いています。

$${δ}$$は転換を判断するための閾値です。$${Ti}$$は転換点を表し、転換点が閾値以上の場合は均等に、閾値以下の場合はより変化をつけるためにランダムにフレームを抽出して学習を行います。

ただし、すべてのビデオから均等にサンプリングすると、モデルの元々の能力が損なわれ、一般的なビデオのアクションの連続性が欠ける結果になる可能性があります。したがって、動的ビデオ以外の一般的なビデオデータも一部保持し、Cascade Preprocessing の結果に基づいて動的にサンプリング戦略を選択します。

Magic Text-Encoder

動的ビデオに対応するテキスト記述は、通常、一般的なビデオに比べてより多くの時間的および状態情報を含みます。したがって、一般的なビデオのみで訓練されたテキストエンコーダーではなく、新たに Magic Text-Encoderを導入しています。これは生成時の Text Encoder に代わるもので、動的なプロンプトをエンコードするように特別に設計されつつ、一般的なプロンプトを処理する能力も保持します。CLIPをベースとして、低ランクアダプタを組み込んで動的情報をエンコードして新たに学習しています。

評価

本論文の手法を他の手法と比較し、性能の検証を行います。

定量評価

MagitTimeと、最先端のT2V(text-to-video)の定量評価結果です。生成手法のすべての項目で1位もしくは2位の高いスコアを獲得しています。FIDやFVDはビデオの品質を測る指標ですが、MagitTimeは他の手法と異なり動的ビデオの生成が可能であるという決定的な強みがあるため、同程度のスコアが得られていれば十分でしょう。

定性評価

左の図がMagicTimeと最先端のT2V生成手法の人間による評価です。MagicTimeは他の方法よりも人間の投票者に好まれていることが分かります。

また、右の図は異なるアブレーション設定の人間による評価を表しており、MagicAdapterやDynamic Frames Extractionなど、本論文のアプローチがビデオ品質向上に貢献していることが分かります。

生成結果

実際に動画生成を行った結果を示します。

画像だと分かりにくいですが、他の手法と比較して変化のある映像が生成できています。

Stable Diffusion のモデル別でMagicTimeを適用した例。
RealisticVision（1-3行目）、RcnzCartoon（4-6行目）、ToonYou（7-9行目）

AnimateDiffをベースにしているため、SD1.5のモデルであれば自由に適用できます。上の図を確認すると、どの例でもテキストに沿った動きが再現できています。

また、ノイズ除去ステップ数ごとの生成結果比較も示されており、25ステップ程度で安定した生成結果が得られるようです。

まとめ

これまでのT2V(text-to-video)は一般的な動画から連続した数秒のフレームを取り出して学習されていたため、動きのある映像を生成することが苦手でした。そこで本論文では動きの分かりやすいタイムラプス動画で構成された新たなデータセット「ChronoMagic」を作成し、時間と空間を別々で学習する、学習フレームを連続ではなく離散的に選択する、などのアプローチを用いて映像の品質と動きのある映像の両立を実現しました。

感想

論文：MagitTimeの解説をしました。
現状T2Vは数秒程度のビデオ生成が限界ということもあり、動きのある映像を作るために離散的にフレームを抽出して学習をするというアプローチはとても理にかなっていると感じました。また、最近の論文にしては珍しくコードからデータセットまでが公開されており、今後の発展に期待ができそうです。