![見出し画像](https://assets.st-note.com/production/uploads/images/146706622/rectangle_large_type_2_db5731420c2fff862566af10b8a450ad.png?width=1200)
4日間でミュージックビデオ(プロトタイプ)を10本制作〜Runway Gen-3 AlphaだけでMVを制作する試み - Blog 2024/07/09
Runway Gen-3 Alphaを使ったミュージックビデオ制作の検証
引き続き、検証を進めています。
前回:
Runway Gen-3 Alphaの可能性と課題については、前回書いたとおりですが、それなりに使い方がわかってきましたので、試行錯誤の回数は減っています。
新たな課題としては、リップシンク機能を使うと画質が低下してしまうことでしょうか。前回は、気付かなかったのですが(プロンプトの改善によって)生成品質を高めるほど、リップシンク処理後の画質劣化が明確にわかります。
![](https://assets.st-note.com/img/1720502295459-fVv4nJtNhg.jpg?width=1200)
今のGen-3 Alphaには、Gen-2に搭載されているアップスケーラーも無いので(そもそも720p (1280x768)の低解像度)、今後のアップデートで改善される可能性はありそうです。
リップシンク機能を使うと、ねむい映像になってしまうので(他のAIサービスで)アップスケールしないとMVに使うのは厳しいと思いますが、横顔でも安定したリップシンクができるのはGen-3 Alphaの強みです。
![](https://assets.st-note.com/img/1720503066504-EkvCzBo1dp.jpg?width=1200)
※尚、ビデオの内容によっては生成不可の表示が出ます。映像の明度変化やフリッカー現象、障害となるオブジェクト等々、リップシンクに適さないビデオは何度やっても実行されません。
まだAlphaバージョンなので、詳細な検証はあまり意味がないかもしれませんが、Gen-2からのふり幅がデカいので、どこまでGen-3 Alphaの力を引き出せるか試しています。
前回から4日経って、10本ほどMVのプロトタイプを制作しました。
もちろん全て成功しているわけではないので、そこそこ良いものだけ掲載しておきます。
Gen-3 Alphaがリリースされて、最初に作ったMVプロトタイプ。
再生時間:1分30秒
音楽はSuno AI
Gen-2で制作していた「Another Tokyo」シリーズのGen-3 Alpha版
再生時間:1分09秒
音楽はSuno AI
韓国語でリップシンクさせてみた
再生時間:1分43秒
音楽はSuno AI(日本語と韓国語を行ったり来たりで歌詞が一番大変だった)
上のK-POP風MVのプロンプトの1つを掲載。
Gen-3 Alpha prompt:
Visual: A Korean male idol with a beautiful, girlish, neutral face is walking through the downtown streets of Korea at night. Under the nose is smooth.
He has shiny, silky hair, wears small earrings and a shiny white leather suit.
He is staring intently at the camera.
The city is snowing.
Camera motion: I zoom in and out of his expression with my hand-held camera.
こちらも「Another Tokyo」シリーズのGen-3 Alpha版
再生時間:1分55秒
音楽はSuno AI(ビデオ生成より時間かかっています)
現在のGen-3 Alphaはプロンプトをしっかり書かないと意図したとおりに生成できません。Luma Dream Machineの「Enhance Prompt」のようなシステム側でそれなりにやってくれる機能はないようです。ガチのプロンプト勝負という感じですね。
Gen-3 Alpha prompt:
Visual: A super cute Japanese J-Pop idol walking down an old Japanese street. She has black hair in twin-tails and is wearing a white dress. She is staring intently at the camera.
Camera motion: A hand-held camera is used to take pictures of her expressionless face from various angles.
フランス語でリップシンク
再生時間:1分40秒
音楽はSuno AI(フランス語の歌詞づくり、リップシンクのチェックは大変だったが、それなりの品質で仕上がってしまうのがGen-3 Alphaの凄いところ)
Gen-3 Alphaがリリースされるまでは、1分でも作るのが大変だったのですが、今は気が付くと2分超えていたり、わりと長めのMVを作りやすくなりました。
そして、ここで強調しておきたいのが…
Image to Video ではなく、全てText to Videoで制作しているということ。つまり、最初から最後までプロンプト入力でビデオ生成しています。
Gen-3 Alphaのプロンプトを読み取る性能がかなり高いということです。
しかし、何度も書いてますが「プロンプト入力だけで映像を作るのは無理」なので、Image to Videoの早期の実装を願っています。
![](https://assets.st-note.com/img/1720509972921-68SIkCS2a8.png?width=1200)
テキストプロンプトだけで2分近くのビデオを生成できる凄まじい技術進化
以下のビデオは、Gen-2とDream Machineで作成していますが、Midjourney V6による画像をベースにビデオ生成しています。
プロンプト入力では無理です。偶然出てくるのを待つガチャ地獄では、絵コンテどおりに動かせないので…
再生時間:1分16秒
音楽はSuno AI
4日で10本と書くと、「簡単に」作成できると思われてしまいそうですが、前述したとおり、実際はかなり難易度が高く、そう簡単に作成できるものではありません。
Gen-2リリースから1年以上使用していますので、Text to Video、Image to Videoの膨大なサンプルおよびプロンプトのライブラリを保有しており、新しい組み合わせを素早く試すことができます。
過去の蓄積によって効率よく試行錯誤できているのが「制作時間が短い」理由です。
プロンプトを一から考えていたり、Gen-2と共通する仕様まで試していたら、1か月以上かかるのではないかと思います(もっと、かかるかも…)。
今は、ウェブの黎明期と同様に一般ユーザーもプロユーザーも同じスタートラインに立っており、やっていることも差異が無い状態。
最も楽しい時期であり、アルファ版、ベータ版の最先端サービスを無料(もしくは低価格)で使用できるのは今だけでしょう。
動画生成AIの今後
画像生成、動画生成はLLMのようにコンシューマー領域で儲けることが難しいため、「製品」としてはエンタープライズ向けに注力し、プロ仕様に耐えられる高性能化を進めていくはずです。
一方で、コンシューマーに対してはコモディティ化した(誰でも簡単に無料で使用できる)アプリやOSの「機能」として提供されることになるでしょう。Appleの戦略がわかりやすい。
先日の映像業界向けの意見交換会でも、話題になっていたのは誰でも手軽に利用できる「機能」としての動画生成ではなく、業界向けの高性能な「製品」の方です。
RunwayもGen-3のエンタープライズ向けカスタムモデルを進めており、AdobeもFirefly APIやカスタムモデルはエンタープライズ製品として開発しています。
本プロジェクトも、プロフェッショナル仕様の動画生成AIの可能性を探求していく予定。
当面は、自主映画制作を主としたインディーズが対象です!
「動画生成AIの可能性」マガジンをフォローしておくと、最近記事・最新情報の通知が届きます。
更新日:2024年7月9日(火)/公開日:2024年7月9日(火)