見出し画像

【AIアニメ】AnimateDiffでアニメが作れるか？(2)

2023年11月4日 22:37

前回の記事のつづきで、AnimateDiffをつかった短い「アニメ」を試作しています。

一部の場面ではキャラにリップシンク（口パク）をさせたいので、動画と並行して声（セリフ）の生成にも手をつけます。

カット「もう11月だよ」

「ちょっと前まであんな暑かったのに…」と言う姉（りりこ）に対して、妹（みいこ）が返答する場面です。
カット２と同じくモデルは「Counterfeit-V3.0」で、オーソドックスに生成しています。構図はControlNetで緩く指定しました。

先に生成した姉（りりこ）が黒のロングヘアだったので、区別しやすいようにグレーのショートヘアに。
服装はカラフルにしたいところですが、今回は作業のしやすさを優先（プロンプティングを簡単に）。構図の下手さも含め、次回の課題。
さて、このカットは簡単なリップシンクでセリフと口を連動させたいので、音声合成に進みます。

KoeiromapによるAI音声合成

キャラクターボイスは以前にも利用した「Koeiromap(Koemotion)」を使います。

無料プランの場合、月500件まで生成でき、「通常」「喜び」「悲しみ」の3つのトーンが使用できます（登録不要のデモ版もあります）。
「通常」は、原稿の読み上げのようなトーン、「喜び」は抑揚が強く高めのトーン、「悲しみ」は落ち着いた低めのトーンです。

声質は、XとYの座標から指定します。Y軸が声の高さで、＋にいくと女声声、－にいくと男声っぽくなります。X軸に関する説明は見当たりませんが、声質が変わります。
実写AI動画向けのリップシンクはSadTalkerなどがありますが、アニメ絵の場合はそれほど凝った口の動きは必要なさそうです。
ControlNetのInpaintを利用して、セリフに合わせて口を開くように加工してみました。

*AIアニメ: Koeiromapでキャラに声をあてる #AnimateDiff #aiart pic.twitter.com/9KNwydyPtc
— Baku (@bk_sakurai) November 1, 2023

Koeiromapでは同じ座標を選んでも、セリフによって声のトーンがかなり変わるので、その点がちょっと難しそうです。

カット「夏なんてとっくに」

次は、両者が会話している状況を示すため二人を同時に収めたカットにトライします。複数人いる動画生成は難しめです。
とりあえずアバウトな構図指定で生成。それをControlNetで修正したものを参照させつつ、再生成を繰り返してみます。

当初のイメージ

take3、色々おかしい

take6、スカートめくれすぎ

take8、なんかエモい

生成→修正→再生成の作業を8回くらい回したところで、雰囲気のいい動画になったのでストップ。キャラの髪・服装もだいたいOK。

カット「あんたには、わかんないよね」

つづいて、姉（りりこ）が妹に「あんたには、（子供だから）わかんないよね」と話すシーンを入れます。
このままだと姉のキャラが分かんなすぎるので、思い付きで追加したカットです。つなぎのシーンなので、冒頭と同じく風景カットでいきます。

前回の冒頭の動画とだいたい同じですが、空を見上げる視点（looking up perspective）で生成してみました。
右下の電信柱の動きが不自然なのは、編集でどうにかなりそうです。

カット「一緒にいるときはうんざりでも」

次は姉のりりこが大人ぶって妹に語りだすシーンです。
本人が感傷的な雰囲気に浸ってるのを表現したいので、夕陽に向かって逆光で立つ構図にしました。

こういう顔が映らないカットは、キャラクターデザインの一貫性に苦労しなくていいのでやりやすいですね。

…とりあえず作業全体の半分くらいは進んだ感じです。完成後にまたnoteを更新したいと思います。ComfyUI AnimateDiffでの動画生成方法についてはこちらの記事にまとめています。