ポンコツ夫婦でも半年間で動画作品を完成させることが出来るのか？（まこ編）

2024年9月4日 20:16

ということで、今回の自主企画のテーマ!
子どもの頃から好きだった「みんなのうた」などのようなMVを作ることが出来るのか？
という実験の中間報告です。

ということで最近制作したMVのプロトタイプです。

#anzu_flux 公開ありがとうございます
今の段階でMVを作ったらどうかなって思って、この三日間で実験的に作ってみました。良ければ見てみて下さい😊#suno #FLUX1 FLUX.1 [dev]#SVD

クリックすると動画が流れます。
BGM有り🎵 pic.twitter.com/38dtbhugYP
— MAKO_AI_digitalian (@nakamako0317) August 30, 2024

流れの早いAI分野ですが、（自分は主に画像、動画関連をメインで活動しています）大きく動いたのが、Stability.AIのから独立したBlack Forest Labsが発表したFLUX.1シリーズです
https://blackforestlabs.ai/

ローカル環境でもtext-to-imageでかなりリアルな表現が可能となりました。また音楽生成AIのSUNOやUDIOも月を追うごとに強化されてきています。動画生成も常に変化しており。状況は日々変わっています。
今だとグーグルのimageFXが話題をさらっていますね。2004.09.04

今回の中間報告では、上記のMVが実際にどのような手順で作られたのかの方法と制作時の自分の考え方がまとめられればと思います。

AIで作る＝”ボタンを押せば1発で完成”ではないという事。

まず流れを説明する前にまだ生成AIを全くさわってない方にお伝えしたいのは、よく言われる「ガチャ」つまり運任せではないということです。

もちろん求めるものによって数行のプロンプトを書いてボタンを押して終わり。というものもありますが、実際に自分のイメージをしっかりと形にしようとする場合、多くの試行錯誤が発生しています。

イメージ系のAI生成は凄く釣りに似ていると思っていて、ある言葉とある言葉（または画像、動画）が持つ関係性を見ながらこのあたりかなーと考えて釣り糸を落とす。釣れなければ改善点を考えて場所を移す。

例：「プール」という単語にはプール自体以外にも夏や青などといったイメージも付随しているみたいな感じです。

結果として小魚に餌を持っていかれるのか、目当ての魚が食いついてくれるのか。試行錯誤が結果に反映される、そのような感じです。
（釣れない日もあります←重要！）

なのでSNSに流れてくるAIで作られた「あっこれいいな！！」っとおもったものの多くは、時間と試行錯誤の果てに出来ている、という考え方をちょっと頭の隅で覚えていてもらえると嬉しいです。

具体的な製作の流れ

音楽生成→画像生成→動画生成→編集→完成

今回使ったもの
１、音楽生成にSUNO
２、画像生成にFLUX（DEV）
３、動画生成、SVD
４、編集、Lumafusion（IPADアプリ）

１、音楽生成にSUNO

まずは歌詞のたたき台をチャットGPTに考えてもらいました。
夏ももうすぐ終わりなので、夏の終わりを考えつつ、サブテーマで終わり＝別れ、卒業、懐かしさ、としてイメージを固めていきました。

出てきた歌詞が長すぎたので短くしてもらいつつ、自分でも世界観に合うように文字数調整をしました。実際は60％くらいは自分で修正しています。

次にMVを作るにあたり音楽が必要なので、音楽生成AIのSUNOを使う事にしました。（全くさわってこなかったので完全な初心者です。）
YOUTUBEを見ながら、ある程度の目星をつけて生成をはじめました。

音楽を生成しながら音楽のスタイルや歌詞の長さを微調整。約30曲程度作りました。その中でSNSに流すため1分30秒程度の曲、かつ世界観が合う、かつあまり破綻していない（音楽も破綻したりするんですね）ものを選びました。

↓なので2分以上生成されてしまったものも沢山あります。

余談ですが今回なぜ急いで作っていたかというと、FLUXに適応した日本人LORAモデルを開発された方がいまして、それのお披露目としてなるべく早く出してあげたかったということがありました。

https://x.com/AiCreatorS1881?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor

ここまでで測っていませんが6時間程度でしょうか？

２、画像生成にFLUX（DEV）

次に歌詞の世界観に沿って画像を生成します。

FLUX最大の強みは自然言語（平たく言えば話し言葉）で画像が生成できることです

自分は全く英語が出来ないので（ドイツ語もですが）、deepL翻訳、チャットGPTを使って表現したい状態、画角、全体の雰囲気などを設定していきます

この時点で多分200~300枚ぐらいは生成していると思います。
重要なのは同じプロンプトで100枚製作しているのではなく、場面に合わせて画像を都度考えプロンプトを変えていることです。

なので1シーンにつき5~10枚程度、それと後述しますがSVDという動画生成AIは1秒程度しか生成できないので(笑)、この時点でシンプルに90秒の動画を作ると90シーン作る必要がありました（なのでそれはあきらめました。死んでしまいます。）

ちなみに1枚画像作るのに、自分の環境だと1分程度かかります。

この段階で画像生成のみで結果的に12時間ぐらいかなー？
まあ仕事もあるので午前中と夜中で1日半は使っている感じです。
とりあえず集まった画像から良さそうなのをピックアップしていきます
生き残るのは10枚~程度でしょうか？泣

３、動画生成、SVD

出来た画像を今度は動画化します。ここで1枚でも画像に破綻が起きるのにそれを動画にするという事がどうゆう事かわかりますでしょうか(笑)

そしてこのSVD（StableVideoDiffusion）という動画生成AIですが、水などの表現は得意だったりするのですが公式では25フレーム、つまり通常の映像は2４フレームなので約1秒しか生成できない事となります。ただし救いは少し早回しな感じになるので若干スピードを遅くすることで2秒程度に伸ばせる場合もあります。

SVDは比較的シンプルな動画になりやすいので自分は結構気に入っているんですけどね！

こちらを使って先ほどの10枚程度を動画化していきます。
画像を動画化するのでプロンプトなどは気にしなくていいのですがそれでも全体で5時間以上はかかっていると思います。

４、編集、Lumafusion（IPADアプリ）

出来た動画を編集ソフトに持っていきます。自分はYOUTUBEを編集したりするときにずっとLumafusionというIPAD専用アプリを長年使ってきているのでそのアプリで編集します。

この段階で音楽に当てはめて見て合う、合わないの判断をします。
泣く泣く切った動画もあり、ただでさえ尺の関係で動画数が足りないのに、、、

なので当然必要な動画を再度作りだす必要が出てきます。

AI動画（MV）のメリットだなーと作ってて思うのはこの時点で、2、3、の手順に戻って再度画像、動画生成がパソコンの前から離れず追加できる点だと思います。

基本的には2.3.4.の手順を何回か回すことで今回のMVはできています。
本当は歌に合わせて唇を動かすリップシンクなどもやろうと思えば出来るところまで技術的には可能になっています

そんなこんなで3日程度で完成しました。

作り終わって

長々とお読みいただきありがとうございました。今回なぜこの動画（MV）を作ろうと思ったことの一つに、

AIを使ってボタン一つ全自動！！ではないよってことであるからこそ、

逆に↓

個人の発想、アイデアなど自分の持っているクリエイティブを存分に発揮できるんだよーってことをお伝えしたかったのです。

「AI＝楽」にばかりフォーカスされがちですが

作り出すうえでの苦労もあるし、だからこそ出来上がった時の喜びもそこにはあります。そんなところが少しでも伝わればいいなと思います。

みんなの歌、みたいなMVは作れるのかなー、、、
後半に続きます。