【AIアニメ】AnimateDiffでアニメが作れるか?(1)
AnimateDiffを使うと数秒のアニメーションなら手軽に作れます。これらを編集してセリフをつければ、ちょっとしたショートアニメ作品も作れるのでは?と思いました。
以前に試したもの
アニメ用のAI音声合成(Koeiromap)などは、以前の記事で試したことがあります。当時の投稿はこちら。
ただ肝心のアニメーションについては、AI動画生成がまだ難しかったので、静止画を中心とした編集にせざるをえず。
9月に入りComfyUIでAnimateDiffを触りはじめ、少しづつ使えるようになったので、AI動画生成+AI音声合成(できれば+AI音楽生成)にリトライしたくなりました。
作成方針
AI動画生成も、本質的に不完全+ガチャの要素(偶発性)があって、満足いく出力を目指そうとすると時間が溶ける。
生成に時間がかかるので、溶ける速度が画像生成の比ではなく。
というか、完璧を目指すとどう考えても手作業でガンガン修正したほうが早くなり「AIアニメ」ではなくなっていく。
なので、とりあえず微妙な出来でいいから全体を完成させることを優先したい。そのあと、時間を区切ってリファインする。
次のような手順を想定:1)台本を作成→2)台本に沿って動画生成→3)セリフの音声合成→4)仮編集→5)リファイン→6)編集
スクリプト(セリフ)
まずスクリプト。「最初なのでごく短いものにしたい」+「画像生成(動画生成)で出力しやすいのはgirl」=ということで、姉妹二人の寸劇に決めました。
スクリプトもAI生成でいけるかもと考え、とりあえずBing(creative)で生成してみます。
どうでしたか?😊
…今回はひとまず自作することにしました。
ちょっと滑ってる感もありつつ、どうでしょう。Bingに感想を聞いてみます。
加筆して返答してくれましたが、冗長になっただけでした。とりあえず先ほどのスクリプトをもとに次の作業へ。
カット1(冒頭)秋の夕暮れ
スクリプトに沿って、順にAnimateDiffで動画を生成していきます。
冒頭は「家路につく姉妹」のシーンが生成できればベストですが、複数人が登場するAnimateDiffはワークフローが複雑になりハマりやすいです。
とりあえず「秋の夕暮れの光景」くらいにしておきます。
画像生成モデルは「Dreamshaper 8」を使いました。いわゆるセミリアルのモデルで、実写(フルリアル)とアニメ絵の中間くらいの画風です。
プロンプトは適当に「cosmos flowers all over, town at dusk, wind is blowing, anime style」としました。花がコスモスっぽくない気も。
「風に揺れる草花」は「波」などと並んでAnimateDiffが得意とする描写のひとつなので、綺麗に出力できることが多いです。
カット2「風がつめたい...」
次に、姉(りりこ)が「風がつめたい…」とつぶやくシーン。
キャラクターデザインも何も決めていないので、アバウトにキャラを生成してもらいます。女の子が空を見上げている構図にしました。
ここでは画像生成モデルは「Counterfeit-V3.0」を使用しました。髪の毛や瞳の描写に特徴が出ています。
モデルは色々試していますが、画像生成では良くてもAnimateDiffとは相性が合わない場合も多い気がします。このCounterfeit-V3は個人的に扱いやすい印象です。
ただ、服に変なリボンがついたり、妙な形の雲が生成されています。このように体の周囲にアーティファクトが出やすいのはAnimateDiff(mm14系のモジュール)の仕様らしく、けっこう難題です。
記事が長くなったので、とりあえずここまでに。ComfyUI AnimateDiffでの動画生成方法についてはこちらの記事にまとめています。