image-to-video紹介~ MagicAnimate ~
Animation Anyoneの興奮冷めやらぬなか、
こちらもTLを賑わせたMagicAnimate。
流れが良いのでこちらの紹介をしようと思います。
このモデルは公開されていてデモもあり、
なんと有志の方のcolab(無料版)でも動く親切っぷり。トップ絵のように気軽にお試しできます。
論文紹介
モデル構造
モデルはAnimation Anyoneと同様に動画版ContorollNetといった感じだが、
一貫性を保つための異なるアプローチがとられている様子。
実写の人物を強く学習している雰囲気がする。
appearance encoder(外観エンコーダ?):
DensePoseSequenceをベクトル化して背景情報と動きのアニメーションを切り分けるような学習ができる?
セグメント単位の追従性を高めるみたいなイメージで認識。フレーム単位の類似性を保つように学習するそうなので、
そこで表情とかもみてるらしい。だから顔が生えるのか…
Temporal Consistency Modeling:
2DUNetを時間方向の3Dに拡張しているらしい?
temporal attention layers(時間注視層?)を使うのが主流なのかな拡散モデルのノイズ除去を動きフレームと一致させるように学習していくっぽい?
時間単位の一貫性を保つためにtemporal attention layersをいい感じに使うらしい。
ビデオ融合技術:
セグメント単位の連続性を保つために、予測を平均化して突飛な変化が怒らないようにしている?
他手法に比べて極端に画面のチラつきがないのはこれのおかげ?
データセット
実写のデータセットが基本の様子。
なので実写のポーズや表情には強い。
TikTokデータセット:
350のダンスビデオを含む。
人間の動きや表情の多様性を捉える。
TEDトークデータセット:
1203のビデオクリップを含む。
スピーチや表情の変化を捉える。
評価方法
生成動画の品質を他手法と比較する形で評価
ビデオ忠実度:
生成されたビデオの品質と忠実度を評価。
TikTokダンシングデータセットでの性能が特に注目される。
時間的一貫性:
フレーム間の連続性と一貫性を評価。
長期ビデオシーケンスでのパフォーマンスを検証。
参照アイデンティティの保持:
参照画像と生成ビデオ間の類似性を評価。
アニメーションのリアリズムと正確性を検証。
動かしてみた
モーションごとに処理時間が異なるようで、
colabのT4GPU(無料版)でランニングの場合は6〜7分で、
激しいダンスをしているようなのだと18分ほどかかることがわかりました。
今回動いてもらうのは、この方。サメ頭マンです。
見ての通り、人間には目と鼻と口があるという決めつけを行なってくるので、被り物は強制的に顔と一体化されてしまいます。
動き自体はかなり追従性がよく、非常に滑らか。描いてない手も勝手に生成してくれます。
この記事が気に入ったらサポートをしてみませんか?