見出し画像

気になる生成AI備忘録-vol.25-「FancyVideo」一貫性を高めるテキストガイドによる新しい動画生成アプローチ

■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた・あるいは単発の備忘録を共有する連載シリーズです。

より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。

※生成AI/AI関連サービス・ツールは進展/進捗が非常に早く、UI/UX面等も変わってしまうため、例えば当サイトに「やり方」的なものを掲載してもすぐに情報が古くなってしまうため、こちらの気になる生成AIに関しては、基本的に開発段階のものを取り上げることが多く、サイトに新たに掲載する考えは現状ありません

今回は、「FancyVideo」について。

以下、FancyVideoの論文ページです。

ここでは、FancyVideoの論文ページを日本語でわかりやすく(可能な限り)解説します。

FancyVideo

まず、はじめにタイトルとして「FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance」とあります。

これは、「FancyVideo: クロスフレームテキストガイドによる動的かつ一貫性のある動画生成に向けて」というのが日本語として妥当かと思います。

次に、「Abstract」は「概要」。

続く英文を日本語でわかりやすく説明すると、

従来のテキストから動画を生成するモデル(T2Vモデル)は、複数のフレームを生成する際に各フレームごとにテキストのガイドが不足していたため、時間的な一貫性が保たれず、動きが不自然になることがありました。
この問題を解決するために、FancyVideoでは「Cross-frame Textual Guidance Module(CTGM)」という新しいモジュールを導入しています。

CTGMは、3つの主要なコンポーネントで構成されています。
Temporal Information Injector (TII)
 フレームごとに異なる情報をテキストの条件に組み込むことで、各フレームに特定のガイドを提供します。
Temporal Affinity Refiner (TAR)
時間の流れに沿って、テキスト条件と潜在的な特徴との関連性を洗練し、一貫性のある動画を生成します。
Temporal Feature Booster (TFB)
 動画全体の時間的な一貫性を強化します。

この技術によって、FancyVideoは時間的に一貫性のある動きのある動画を生成することができ、従来のモデルを上回る性能を実現しました。
テスト結果も良好で、特にEvalCrafterというベンチマークでの評価で優れた結果を出しています。

FancyVideo

要するに、FancyVideoは、”AIを使ってテキストから一貫性のある動画を生成する技術を大幅に向上させる新しいアプローチを提案している”という内容(概要・要旨)となっています。


次に、「Method」。=「方法」

FancyVideo

図は、FancyVideoの技術について詳しく説明するための図です。

3つのセクションに分かれており、それぞれのセクションがFancyVideoのアーキテクチャ(構造)と、動画生成におけるフレーム間のテキストガイドの方法を示しています。

では各セクションについて、「I. Overall Architecture」

 Overall Architectureとは「全体構造」で、FancyVideoがどのように動作するかの全体的な流れが説明されています。

図の左側では、テキストから画像を生成する「Text-to-Image Model」が示されており、このモデルが各フレームに対する初期の映像生成を担当します。

その後、各フレームは時間と動きに関する情報を取り入れつつ処理され、最終的に動画として一貫性を持たせるために「Cross-frame Textual Guidance Module(CTGM)」を通じて調整されます。

次に、「Ⅱ.Spatial Block」=空間ブロック。

このSpatial Blockのセクションでは、生成されたフレームがどのように処理されるかが示されています。

テキストの埋め込み(Text Embedding)「ResNet Block」「Self-Attention」を通じて処理され、その後「CTGM」によってフレームごとのテキストガイドが追加されます。

このCTGMは、各フレームに対する個別のテキストガイドを行うための重要なモジュールです。

そして、「III. Cross-frame Textual Guidance Module」=フレーム間のテキストガイドモジュール。

このセクションでは、CTGMの詳細が示されていおり、3つの主要なコンポーネントがあります。

3つの主要コンポーネントは上述したように

Temporal Information Injector (TII)
 フレームごとに異なる情報をテキストの条件に組み込むことで、各フレームに特定のガイドを提供します。
Temporal Affinity Refiner (TAR)
時間の流れに沿って、テキスト条件と潜在的な特徴との関連性を洗練し、一貫性のある動画を生成します。
Temporal Feature Booster (TFB)
 動画全体の時間的な一貫性を強化します。

FancyVideo

です。

よりわかりやすく、↑の図からセクション「III. Cross-frame Textual Guidance Module」=フレーム間のテキストガイドモジュールの部分だけ見てみると

FancyVideo

このようになっています。

3つの主要コンポーネントを当てはめての説明をすると

Temporal Information Injector (TII)
↑図の上部右側に位置しています。ここで、フレームごとのテキスト条件に特定の情報が注入され、各フレームに対応する個別のテキストガイドが生成されます。

Temporal Affinity Refiner (TAR)
↑図の中央部分に位置しています。時間軸に沿って、テキスト条件と潜在的な特徴(動画生成の基になる特徴)との関連性を調整し、動画全体における一貫性を確保する役割を果たします。

Temporal Feature Booster (TFB)
↑図の下部に位置しています。これは、動画全体の時間的一貫性をさらに強化するために、最終段階で機能します。これにより、フレーム間のスムーズなつながりが保たれ、自然な動きのある動画が生成されます。

と、FancyVideoの技術・概要の説明が論文内でなされています。

論文では続けてデモ動画も複数掲載されています。

FancyVideo

↑はスクショですが、実際の論文ページではそれぞれ動画になっています。

ただ、掲載されている動画はいずれも2秒の長さしかありません。

FancyVideoの技術が長尺の動画での一貫性を高めることに主眼を置いているのであれば、その効果を評価するには、せめて10秒以上、できればもっと長尺の動画を提示してほしかったところです。

2秒程度の短い動画では、フレーム間の一貫性や動きの滑らかさといったFancyVideoの強みが十分に発揮されず、視聴者がその技術の真価を理解するのは難しいのではないかと思います。

現に私は「へえ、FancyVideoってスゴイな」とは感じませんでしたし。(苦笑)

特に、時間軸に沿ったテキストガイドの改善がどの程度効果を持つのかは、長尺の動画でこそ評価されるべきではないかなと、個人的には思いました。

論文や技術デモにおいて、長尺の生成動画を提示することで、より説得力のあるアピールが可能となる、→これにより、FancyVideoが従来の技術をどれだけ上回っているかが、視覚的に明確に伝わるはずでは?
と。

もし、FancyVideoのチームがこの技術をより広く理解してもらいたいのであれば、より長いデモ動画を提示することが重要だと考えます。

短い動画では技術の全貌を評価するには不十分であり、従来技術との差別化が伝わりにくくなるリスク等、ネガティブな捉えられ方をしてしまうのではないかと。

FancyVideoは時間的に一貫性のある動きのある動画を生成することができ、従来のモデルを上回る性能を実現した→テスト結果も良好だったのであれば、それは素晴らしい技術だと端的に感じることは出来ましたし、「嘘偽りがある、盛ってる」といったことも感じなかったものの、せめて10秒以上の尺のデモ動画を公開してほしかったところです。

2024年8月22日時点、FancyVideoのコード公開はされていないようです。

ただ、論文のURLに「github」と含まれていますし、URLに「github」が含まれている場合、プロジェクトや論文の関連情報をまとめたページであることが多く、コードやデータセット、その他のリソースが公開される際にはGitHubリポジトリを通じて提供される可能性があります。(コードが公開されるタイミングは現状不明)

いいなと思ったら応援しよう!