見出し画像

image-to-video紹介~ MagicAnimate ~

Animation Anyoneの興奮冷めやらぬなか、
こちらもTLを賑わせたMagicAnimate。
流れが良いのでこちらの紹介をしようと思います。

このモデルは公開されていてデモもあり、
なんと有志の方のcolab(無料版)でも動く親切っぷり。トップ絵のように気軽にお試しできます。


論文紹介

モデル構造

モデルはAnimation Anyoneと同様に動画版ContorollNetといった感じだが、
一貫性を保つための異なるアプローチがとられている様子。
実写の人物を強く学習している雰囲気がする。

MagicAnimate pipeline.
  1. appearance encoder(外観エンコーダ?):

    • DensePoseSequenceをベクトル化して背景情報と動きのアニメーションを切り分けるような学習ができる?
      セグメント単位の追従性を高めるみたいなイメージで認識。

    • フレーム単位の類似性を保つように学習するそうなので、
      そこで表情とかもみてるらしい。だから顔が生えるのか…

  2. Temporal Consistency Modeling:

    • 2DUNetを時間方向の3Dに拡張しているらしい?
      temporal attention layers(時間注視層?)を使うのが主流なのかな

    • 拡散モデルのノイズ除去を動きフレームと一致させるように学習していくっぽい?

    • 時間単位の一貫性を保つためにtemporal attention layersをいい感じに使うらしい。

  3. ビデオ融合技術:

    • セグメント単位の連続性を保つために、予測を平均化して突飛な変化が怒らないようにしている?

    • 他手法に比べて極端に画面のチラつきがないのはこれのおかげ?

データセット

実写のデータセットが基本の様子。
なので実写のポーズや表情には強い。

  1. TikTokデータセット:

    • 350のダンスビデオを含む。

    • 人間の動きや表情の多様性を捉える。

  2. TEDトークデータセット:

    • 1203のビデオクリップを含む。

    • スピーチや表情の変化を捉える。

評価方法

生成動画の品質を他手法と比較する形で評価

他手法との評価
  1. ビデオ忠実度:

    • 生成されたビデオの品質と忠実度を評価。

    • TikTokダンシングデータセットでの性能が特に注目される。

  2. 時間的一貫性:

    • フレーム間の連続性と一貫性を評価。

    • 長期ビデオシーケンスでのパフォーマンスを検証。

  3. 参照アイデンティティの保持:

    • 参照画像と生成ビデオ間の類似性を評価。

    • アニメーションのリアリズムと正確性を検証。

動かしてみた

モーションごとに処理時間が異なるようで、
colabのT4GPU(無料版)でランニングの場合は6〜7分で、
激しいダンスをしているようなのだと18分ほどかかることがわかりました。

今回動いてもらうのは、この方。サメ頭マンです。

サメ頭マン

見ての通り、人間には目と鼻と口があるという決めつけを行なってくるので、被り物は強制的に顔と一体化されてしまいます。
動き自体はかなり追従性がよく、非常に滑らか。描いてない手も勝手に生成してくれます。


この記事が気に入ったらサポートをしてみませんか?