劇場版「走れメロス」予告編を完全AI生成で作ってみた！

2024年9月11日 17:03

前回、社内で数少ない非デザイナーながらもAIの力を借りて「走れメロス」のアニメOP風ムービーを制作した記事を公開しました。

今回はその第二弾。「劇場版・走れメロス」の予告編を、画像、動画、音楽、ナレーションまですべてAIで生成し、実写映像作品を生成しました。その過程を詳しくご紹介します。

最終的な完成動画

工程①：物語の構成をChatGPTで整理

まずは、青空文庫から「走れメロス」のストーリーを抽出。ChatGPTを使って物語全体を整理し、各シーンの状況をまとめました。
他にもこのプロセスで、メロスと他の登場人物たちのビジュアル的な特徴も抽出し、物語の雰囲気に合ったBGM生成用のキーワードを生成する準備を整えています。

1）青空文庫からストーリー抽出

公開されている「走れメロス」のテキストを利用し、主要なストーリーラインを確定。

2）ストーリーを30個のシーンに分け、状況を抽出

シーンごとに重要なイベントをリストアップし、見栄えのするシーンや画像生成の際に使用するキーワードなどを拾います。

ちなみに、ChatGPTへは「前項にて抽出したストーリーからシーンを生成」するように指示したつもりですが、生成されたシーンには「結婚式を終えた妹が生還したメロスを祝福する」といった原作改変が含まれていました。これはハルシネーション（幻覚）と呼ばれる“AIあるある”ですね。こういうチェック機能や判断は、まだまだ人間に力が必要なところです。

3）主要登場人物のビジュアル的なキャラクター特徴を抽出

後ほど「キャラクターの統一性」について処理を行うため、各キャラクターの視覚的な個性を整理します。

原作小説においてもそれほど詳細な設定が決まっているわけではないので、ここはある程度自分の好みのキャラクター像を作ってよいと思います。
しかし映像化の際に“服装や髪形の似ている人物”がカブると判別しにくいので、「メロスは短髪で白服」「セリヌンティウスは長髪で黒服」など、差別化しておくのがオススメです。

4）ストーリーの特徴から、BGM生成用のキーワードを生成

のちほどBGMを作成する際のために、雰囲気を定義するためのキーワードを作成しておきます。今回生成された「speed」のような、曲調への指示と重なってしまいそうなキーワードは除外しておいたほうが好ましいかもしれません。

工程②：シーンの画像をStableDiffusionで生成

物語の構成が整ったら、次は画像生成に取り掛かります。
今回も使用するのはStableDiffusion。開発元であるStabilityAI社はちょっとゴタゴタしているようですが、今も変わらず最先端の画像生成ができるサービスだと思います。
この工程では、シーンごとに整理された設定をもとに、各シーンの画像をAIで生成します。

1）生成するシーンを選び、画像生成

今回作るのは予告編。長尺映像ではないため、30シーンのうち使うのは数シーンです。なるべくドラマチックなシーンを選んで画像生成を行います。

2）主要人物のキャラクタービジュアルを生成

普通に画像生成すると、いくら同じように「30代/短髪/長髪/髭あり」などプロンプトで指定しても基本的に“別人”が生成されます。一連の映像でカットが変わるたびに全くの別人が出てきてしまうと、誰が誰だかわからなくなりますので、次の工程で主要登場人物の外見が統一する際の「デフォルト顔」として、メロスやセリヌンティウスなどのビジュアルを生成します。

3）生成した各シーンの、キャラクターの顔を統一

キャラクターの顔が一定の統一感を保てるよう、すでに生成済みの画像の顔を差し替えて調整します。
LoRAなど学習データを作ってキャラクターを統一する、というのも定番手法ではあるのですが、今回は物語の時系列もそこそこ長い（３日間）ので“顔だけ揃っていればいいや”と妥協し、もっとお手軽な「ControlNetのIP-Adapter」による顔統一を行います。

下記のように「元画像の顔をデフォルト画像に寄せ」ていきます。
これを、メロスの他シーンやディオニス王/セリヌンティウスにも行います。

工程③：生成された画像をKLINGで動画化

生成された画像を使って、いよいよ予告編用の動画を作成します。ここで使ったのがKLING。ここからの工程は有料サービスがオススメです。

他にも「Runway Gen-3」や「Luma AI」「Pika」など選択肢は色々あり一長一短ですが、１分の動画を作ろうと思うと１日１～３回の無料ガチャでは年単位の時間が必要になるので、さすがに有料プランでないと厳しいですね。
ちなみにおおよその金額感は月額＄20前後と、どのサービスも共通しています。※できることには多少差がありますが

今のところ個人的にはKLING推しです。比較的プロンプトが思った通りに通りやすいのと、他がイラスト系に弱い印象があるので。
とはいえ１か月後には全く新しいサービスが出てきて一気にNo.1に！という可能性も十分あるので、KLING推しも“現時点で”というもの。つい先日にも「hailuoai.com MiniMax」が登場するなど、情報収集はいくらやっても足りません…

1）予告編として使えそうなシーンの画像から、動画生成

ピックアップしたいくつかのシーン画像をKLINGへと放り込み、プロンプトを入れてGenerateボタン。画像があれば人物像はさほどブレないので、人物描写よりも動きに関する描写を入れたほうが良さそうです。

逆に言うと、動きをプロンプトで指示しても言うとおりに聞いてくれないことも多いので、どうしても一定のガチャは必要かと。

2）「開始フレーム」「終了フレーム」の画像2枚を使って生成

なかなか思い通りの動画にならない場合は、開始フレームだけではなく終了フレームも指定すると精度が上がることもあります。

こともある…ということは“必ずしも精度が上がるとは言い難い”わけで、「立っている男が倒れる」と指示しても「立っている男が“一旦液状化して”倒れた姿になる」など、全く想定外の動きをすることも。
ある意味楽しいけど、その分も課金されてるので悔しくもあり。

工程④：Sunoで楽曲生成

こうして動画素材を次々に作成したら、次はBGMの作成です。楽曲生成にはsunoを使用。
動画生成ほど絶対必要ではないものの、こちらも有料プランがオススメです。月額＄10で生成回数の増加＆商用利用可…という点もありますが、色々な歌詞を多様な音楽ジャンルに変えた楽曲として聴けるのは、それだけでとても楽しいのです。sunoは個人的オススメAIサービスの筆頭格だったりします。

1）chatGPTで生成した楽曲キーワードを入力

工程①の４にて生成していたキーワードを「Style of Music」欄に記載します。
suno側が学習している音楽ジャンルや楽器には割と偏りがあるため、「三味線」は理解するけど「和太鼓」は通らない…など癖は強め。
とはいえ、「crescendo」「andante」などの音楽記号や「dark」「suspense」のような雰囲気を表すキーワードは拾ってくれやすい印象です。

2）曲構成を設定

今回は歌詞を入れないBGM曲なんですが、右上にある「Instrumental」ボタンにチェックを入れた”AIに完全オマカセ”生成ではなく、しっかりLyrics欄に「Verse」などの曲構成だけは入れておくのがポイントです。

3）BGMの生成ガチャ

「Create」ボタンを押すと、２曲ずつが生成されます。
こちらもガチャ要素は強いため、短いインスト曲とはいえ、おそらく20曲くらいは生成することになるかと思います。
「イントロは気に入っているのになぁ」といった場合には、UploadAudioボタンから当該曲をアップし、それをもとに再生成してみるのも良いかもしれません。

工程⑤：VALL-Eでセリフやナレーションを生成

次にセリフやナレーションの生成…だったのですが、想定したようにはうまくいかず、いくつかの課題もありました。

1）VALL-Eで生成

VALL-Eを使ってセリフやナレーションを生成…してみたものの、どうしても抑揚が弱い。さほど抑揚を求めないナレーションであればまだしも、セリフ部分では感情表現が不十分な結果に。

2）セリフはVALL-Eとは別で作成

VALL-Eではセリフとして弱いので、別のツールにてセリフ音声を作成しました。

工程⑥：素材をまとめて完成

最後に、すべての素材を映像編集ソフトで統合し、予告編としての映像が完成です。

おまけ：ＮＧ集

今回の動画を作成する過程で、せっかく作ったけど使われなかった没カット＆ＮＧカット、制作楽曲などをまとめてみました。映画のＮＧ集エンドロールな感じでお楽しみください。

おわりに

いかがでしたでしょうか。年初に作成した第一弾に比べ、生成サービスの向上スピードに改めて驚かされますね。
Sunoのバージョンアップでプロンプト精度や楽曲尺の向上、既存曲参照などができるようになっていたり、Klingなど、ちょっと前まで影も形もなかったサービスが覇権を握っていたりと、目まぐるしい進化が非常に面白い分野です。
これからも、映像制作だけでなく、AIを活用したさまざまなチャレンジを続けていきたいと思います。「AIで何かやってみたい！」という方は、ぜひ気軽にご相談ください。可能性は無限大です！

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

37,121件