![見出し画像](https://assets.st-note.com/production/uploads/images/127008638/rectangle_large_type_2_428348808fb8f95c644941ca22e0daa2.png?width=1200)
2024年どうなる生成AI~動画生成AI編~
昨年2023年は”生成AI生成期”、”生成AI元年”なんて言われていました。
今年2024年から向こう1年でまた生成AIは進化を遂げることかと思います。
そこで、各生成AIに関して簡単に私、木村、チーム木村が思っていることも交え、予想あるいは願望めいたことも含めて書いてみました。
ちなみにここでいう各生成AIとは
・画像生成AI
・動画生成AI
・音楽生成AI
・ほか生成AI(タスク系)
・大規模言語モデル(ChatGPTなど)
をいいます。
では、今回は、動画生成AIについて。
まず、私のサイト『はじめての生成AI比較.com』でも書きましたが
動画生成AIは、3つのタイプに分類されます。
・動画編集系動画生成AI
・アニメーション系動画生成AI
・アバター系動画生成AI
それぞれ、どのようなものかというのは、以下のXのポストを参照して貰えればわかりやすいかと思います。
▼mysterious woman
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) October 13, 2023
全てAIだけで完成
AnimateDiffを利用する方法はいくつかありますが、こちらの作品はStable Diffusion webUIの拡張機能+Clipchampでの生成です
16コマ(2秒分)が基本⇒10個生成=20秒分
↓
Clipchampの「AIでビデオを作成する」にて動画生成#AnimateDiff#StableDiffusion pic.twitter.com/0KfQU7GtkP
↑は、アニメーション系動画生成AI「AnimateDiff」で生成したショートクリップ(数秒程度の動画)を、動画編集系動画生成AI「Clipchamp」にて編集した1本の動画を投稿したものです。
つまり、動画の素材をAnimateDiffで生成し、Clipchampで編集して1本の動画を生成したということです。
そして、アバター系動画生成AIのわかりやすい例は
↑のように、動かしたい画像を元に、アバターとして動画生成が可能なのが、アバター系動画生成AIとなります。
↑の例は「HeyGen」というアバター系動画生成AIの生成例です。
(アバターにして喋らせたい元画像をアップロード→アバターに喋らせたい内容をテキストプロンプトで入力→音声選択→動画生成完了)
アバター系動画生成AIは、基本的にはリップシンク(口パク)機能が付帯しています。(元画像によってリップシンクしない動画生成AIサービスも有り)
と、ここまでまずは動画生成AIの3つの種類について触れましたが、個人的には、動画編集系動画生成AIとアバター系動画生成AIは、いずれもある程度サービスとして確立されていると思っています。
え?
「じゃあ、アニメーション系動画生成AIは、サービスとして確立されていないの?」
と思われるかもしれませんが、まったく確立されていないということではありません。
ほか2つの種類同様に、ある程度は確立されているとは思いますが、生成される動画(生成できる動画)が数秒程度なのです。
現在のところ、RunwayのGen-2、Pika、AnimateDiffなどのアニメーション系動画生成AIは、比較的短いクリップの生成に特化しています。
これらのサービスは通常、3秒程度~最大15秒程度の動画を作成することができます。
もちろん、数秒の動画生成だけでもその技術は素晴らしいとは思っています。
現状の技術の素晴らしさは理解しているつもりなのですが、例えばAnimateDiffにおいては、いわゆる『費用対効果が悪い』ように思えるのです。
これは尤も、『はじめての方・初心者から見た場合に』ということです。
『費用対効果が悪い』というのは、AnimateDiffをは動画生成AI初心者にとっては、まず環境構築するだけでもハードルは高いと言えます。
悪い言い方に聞こえてしまったら申し訳ないですが、「労力に見合わない気がする」というのは、はじめてAnimateDiffに触れた際に感じたことです。
「この数秒の動画のために、と思うと、労力的に割に合ってない気がする」
と、私は感じたのです。
AnimateDiffを毛嫌いしている、認めていない等ではありません。
それこそ突き詰めて使い込めれば、現状AnimateDiffはトータル的にトップクラスのアニメーション系動画生成AIだということも思っています。
先ほども言いましたが、数秒尺の動画生成技術そのものは素晴らしいと思っていますし、単純に凄いということは前提として。
同じアニメーション系動画生成AIの中には以下のようなサービス・ツールもあるため、ことAnimateDiffに関しては、はじめての方・初心者をターゲットに見た場合、『費用対効果が悪い』と感じてしまうのです。
毎日ログインクレジットがもらえる画像生成AI『https://t.co/xt7HkC2LYi』
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) October 18, 2023
新機能の『動くイラスト』が初心者でも簡単楽々
「動け!」
↓
ワンタッチで動くイラストの完成
↓
アニメーションをよりスムーズにすることもできます
DL可(webpファイル)https://t.co/jt9Hy3dieC#pixaianimate pic.twitter.com/lQzwtOiXJ6
↑の投稿にもあるように、画像生成AIでもある「PixAI.Art」の『動け!』機能は、ワンクリックで画像を動画にすることができます。
これを最初に触れたときには、ある種の革命だと思いました。
何かと環境構築が必要でもなく、サッと動画生成が可能となっています。(まだまだ元画像と完成動画の一貫性に難点はありますが)
これからアニメーション系動画生成AIの世界に入ります、という方は、まずは「PixAI.Art」の『動け!』で動画生成してみて、中級~玄人志向と言えるAnimateDiffも触ってみると良いかと思います。
と、アニメーション系動画生成AIの各サービス・ツールはいくつかあるわけですが
単純に
”ある程度長い動画、例えば3分、いや、1分の動画は作れないものなのか?”
これは一度でもアニメーション系動画生成AIに触れたことがある方なら、思ったことでしょう。
それも、短い動画をつなげて、ある程度の尺の動画に仕上げる形ではなく。
先ほど、アニメーション系動画生成AIの各サービス・ツールは、大体3秒程度~最大15秒程度の動画を作成することが出来ると書きましたが、これが1分や3分といった、ある程度長い尺の動画を生成することが現状出来ない理由は、技術的な制約や処理能力の限界によるものだと考えられます。
だからこそ、複数の短いクリップを生成し、それらを編集ソフトウェアで結合して長い動画を作成する方法というのが、一般的に実践されています。
では、アニメーション系動画生成AIは今後どうなっていけば、はじめから1分以上だったり、尺の長い動画生成が可能になるのかということですが
現状の課題をわかりやすく挙げると、学習データと計算リソースの不足
だと考えられます。
まず、学習データに関してですが、単純に長い動画を生成するには、より多くの学習データが必要となります。現状のサービスの多くは、短い動画のデータで学習を行っているため、長い動画を生成するための学習データが不足しているそうです。そのため、長い動画を生成するためには、それに見合う形の新しい学習データの収集や作成が必要になる、と考えられます。
次に、計算リソースに関してですが、長い動画を生成するには、より多くの計算リソースが必要となります。現状のサービスの多くは、短い動画を生成するための計算リソースで運用されています。そのため、長い動画を生成するためには、より多くの計算リソースを用意する必要がある、と考えられます。
生成AI技術の進化は目まぐるしいので、近い将来で可能になってくるのだろうとは思いつつも、こうした課題解決に向けてどうすればいいのか、私なりに考えた事としては
AIの複数連携と、クラウドコンピューティングによる解決方法です。
複数のAIを連携させる→より多くの学習データ&計算リソースの活用が可能になるのでは、というのと、クラウドコンピューティングを利用することにより、必要な計算リソースをオンデマンドで利用(コストを抑えながら、大規模な計算リソースを活用)することが出来る。
これらの方法を組み合わせることで、現状の数秒程度よりも長い動画生成が可能になるのではないかと思われます。
現状、RunwayのGen-2、Pikaなどは、はじめに3秒ないし4秒程度の動画生成→その生成動画に”+4秒”といった形で新たに動画生成が可能となっているのを見るに、4秒ずつプラスして動画生成できる技術があります。
ただ、例えば最初に3秒の動画生成→プラス4秒→7秒の動画が生成、つまり、11秒の動画生成が出来たとしても、一貫性が保たれていなかったり、何かしら破たんしてしまっているケースはよく見られます。
その辺の課題も、はじめからある程度の長さ(1分以上など)の動画生成が可能になれば、クリアされていくのではないでしょうか(現状でも、はじめからある程度の長い動画生成可能なサービスも無くはないのですが、やはり一貫性の問題であったり見受けられます)。
端的に、動画の動きが複雑になるほど、計算量も増加すると言われていますし、クラウドコンピューティングの利用にはコストがかかるというデメリット面もあるため、上記の解決方法ですんなり、とは難しいようにも思いますが、今後の動画生成AI技術の発展とともに、クリアになっていけばいいなと考えています。
個人的に、大規模言語モデル (LLM) を活用したもので気になるものがあるので、また別記事にてそちらは紹介します。
▼画像生成AI編はこちら
▼動画生成AIギャラリー
![](https://assets.st-note.com/img/1704720433799-jHeNbYhqjl.png)