画像や文章を本格的な映画に変換するGen-2の魅力を紹介します。
公開日:2023年4月27日
※動画を再生してから読むのがオススメです。
先週、MidjourneyやAIが生成した画像を映画のようなプレゼンテーションビデオにする方法についてビデオを撮りました。
しかし、今日はさらにクレイジーな方向へ進んでいきます。
今日は、私たちの画像を実際のムービーに変えてみましょう。
これはワイルドです。
そこで今日は、RunwayMLの「Gen 2」を見てみましょう。
これはテキストからビデオへの変換ツールで、正直言って素晴らしいの一言に尽きます。
私たちは完全なウォークスルーを行い、AIが今ある場所の長所と短所を説明するつもりです。
さらに、Gen 2を使い始めるときに、すぐに使いこなすことができるように、いくつかのヒントとトリックを紹介します。
現在、Gen 2はDiscordをベースにしているので、Midjourneyのユーザーの皆さんはとてもくつろげるはずです。
ビデオの作成は、本当に、本当に簡単です。
Gen 2のボットで、見たいものをプロンプトで入力するだけです。
この場合、私は、いくつかの島の近くの海でボートに乗っている人を演じました、そしてこれが生成されたビデオです。
考えてみれば、これはかなりクレイジーなことです。
その男も、その船も、その瞬間も存在しないのに、その映像があるのです。
現在、プロンプトからの出力は約4秒ですが、この後ビデオで紹介するいくつかのクリエイティブなトリックを使えば、この時間をほんの少し延ばすことができますよ。
全体として、レンダリングはかなり速いですね。
今までで一番長く待ったのは2分くらいですが、これは実際にやっていることを考えると、かなり驚くべきことだと思います。
出力される動画の解像度は768×448、アスペクト比は16対9です。
アスペクト比を916のような縦長の動画や、2-1のような大きなシネマスコープ的な雰囲気に変更する方法は今のところまだありません。
まだ初期段階なので、いつかは実現すると思いますし、実現したらすごいことだと思います。
とはいえ、ビデオをより高い解像度にアップスケールするコマンドもありますし、コマンドで映像を補間して、途切れ途切れになるのを解消することも可能です。
これについては、1秒後に見てみましょう。
それでは、ニューヨークのシーンでどのように見えるか見てみましょう。
このビデオは、プロンプトを使用して作成しました: ニューヨークの街並み、忙しく歩く人たち。
そして、アップスケールと補間を指定するコマンド、つまりダッシュダッシュアップスケールとダッシュダッシュインターポレートを使用し、サイズが1536 x 896のビデオが返されました。これは、かなりまともなサイズだと思います。
では、早速見てみましょう。
うん、なかなか素晴らしいね。
つまり、数週間前にテキストから動画への変換に関する動画を作成しようと考えていたことを簡単に触れておきたいのですが、その時点でのさまざまなツールを使った出力レベルはこれでした。
これは文字通りほぼ同じプロンプトのようなものです。
ニューヨークの街並みで、このようなものが出てきました。
それで、そして、今、私たちは、ここにいます。
2年後にはどうなっているのか、想像もつかないくらい、短い時間で長い道のりを歩んできました。
そこで、エスタブリッシング・ショットを撮った後、街並みを少しずつ再現しようと思い、電話をしながら歩いているビジネスマンを登場させたところ、このような映像になりました。
この映像は、とても素晴らしいものです。
手元が少し乱れていますが、これは想定内のことです。
この技術の初期段階ですが、それでも、超、超、超、超感動的です。
また、アップスケールとインターポレーションのオンとオフの違いを理解していただくために、同じプロンプトでこれらのコマンドをオフにした状態もご覧ください。
つまり、アップスケールとインターポレートをオフにすると、このようになります。
これはすごいことです。
AIの奇妙さが完全になくなることはないだろう、私はそれが好きなのだから。
でも、全体的に見ると、フレーム間のカクカク感が増し、解像度が低下しているのがわかりますね。
そこで、さらに数本のビデオを作成し、全体をつないでカットしたものがこれです。
そう、約20分で、自分の机を離れることなく、エイリアンがニューヨークを侵略する映像が完成したのです。
そして、この男性が持っているエイリアンのものが多すぎるなどの、いくつかの奇妙なAIの問題にもかかわらず、私は引き続き同じことを続けるつもりです。
でも、また、これに集中するんです。
だから、ニューヨークをエイリアンが侵略してくるという映像のシークエンスをやって、そのままにしておく。
そして、本格的なビデオシーケンスで、この男のジャケットのボタンは多すぎる、とか、彼女の手はちょっと変だ、とかね。
そういうことは、動いているときには気づかないことだと思うんです。
もちろん、背景にいる女の子の目が少し変になっているという問題がありますが、これはテキスト入力だけで動画が出力されていることを考えると、かなり細かい指摘だと思います。
しかし、これから参考画像を撮影し、それをプロンプトの一部として使用することで、映画的なビジョンに磨きをかけることができるのです。
次のセクションに入る前に、もしまだ機会がなければ、「いいね!」と「購読」ボタンを押すことをお勧めします。
さらに、これまでのビデオに登場したMidjourneyのチートシートに寄付してくれた人たちにも感謝したいと思います。
正直なところ、皆さんのサポートは私にとって大きな意味を持ちます。
本当に心から感謝しています。
では、さっそく始めてみましょう。
Midjourneyに話を移しますが、先週は7枚の画像を組み合わせて、ゴシック・ビクトリア調の不気味な物語を作りました。
そして、これらの画像をすべてWondershare Filmoraに取り込み、パララックスとマスキングを行い、映画のようなプレゼンテーションを作成しました。
最終的に約30秒のビデオになりました。
それでは早速見てみましょう。
この動画がどのように作られたのか、全工程をご覧になりたい方は、以下のリンクからどうぞ。
途中で生成した画像をGen 2の参照画像として使うのはかなり簡単ですが、他のことと同じように、進むにつれて少し複雑になっていきます。
つまり、このプラスボタンを押すだけで、Midjourneyを使用して画像プロンプトを使用する場合と同じように、参照画像をアップロードすることができるのです。
ただし、テキストプロンプトを追加する必要があります。
そして、これは実際にGen 2 Discordの議論から得られたかなり良いヒントですが、自分のテキストプロンプトを入力するだけでもいいのですが、不思議なことに、画像をClip Interrogatorにかけると、より良い結果が得られます。
Clip Interrogatorへのリンクは後述しますが、基本的には画像をドラッグして送信するだけで、Midjourneyの描写機能とほぼ同じような機能を果たします。
画像を分析し、それに基づいてプロンプトを表示するのです。
だから、Clip Interrogatorを使わない最初の実行では、このような動画ができましたが、たしかにうまく機能していません。
Clip Interrogatorのプロンプトを見ると、暗い雲に覆われた古い屋敷、暗く不気味なテーマ、ライトグリーンとアンバー、海岸の風景という結果が返ってきました。
本当はもっとあったのですが、関係ないものがたくさんあったので、絞り込みました。
さらに、CFGスケールと呼ばれるコマンドも使ってみました。これはダッシュダッシュCFGアンダースコアスケールです。
それをMidjourneyのスタイライズコマンドのようなものだと考えることができます。つまり、値を高くするほど、参照画像をより参照してくれますが、出力が不安定になる傾向があります。
低くすればするほど、参照画像への配慮は少なくなりますが、映像はより安定したものになります。
CFGのスケールを20にすると、このようになります。
私が求めていたものとはちょっと違いますが、なかなかいい感じです。
実際、超ダークですが、最初の作品よりは確実に近いですし、あの変な終わり方もありません。
もう1つ注意してほしいのは、参照画像をリンクさせるだけではいけないということです。
そうしないと、とんでもないものができてしまうからです。
参考画像は毎回アップロードし直さなければなりません。
もしリンクを貼ろうとすると、そこからが超不思議なことになります。
つまり、先ほどリンクした家の画像と、プロンプトがあり、そしてこれが出力されましたが、これは完全に間違っています。
面白いけど、間違っている。
最終的に、このことを理解し、奇妙なことにCFGスケールを弄るのをやめてデフォルトのままにしたところ、実に気に入ったものができました。
つまり、デフォルトがベストであることもあるのです。
実際、このような出力が得られました。
これにはかなり満足しています。
2枚目の撮影に移りますが、こちらはほとんどすぐに決まりました。
黒いドレスを着た女性が2階を歩いていて、背景には嵐雲がゆっくりと動いている、というものでした。
そして、最初の出力はこれでした。
試しにもう1回やってみたら、もっと気に入ったものができた。
そして、このショットが出来上がりました。実は、このショットはもう少し気に入っています。
アングルがもう少しドラマチックなんです。
より映画的な感じがします。
そうですね、この写真が好きです。
このようなショットを撮るには、プロンプトの前に映画のようなアクションを入れれば、より映画のようなものが撮れるということです。
3枚目の画像は、実際に問題に直面し始めたところです。
これは、ドアに手を伸ばしているところです。
ご存知のように、AIは手をうまく表現できません。
そのため、デヴィッド・クローネンバーグのような映像出力がたくさん出てきました。
では、そのうちのいくつかを見てみましょう。
手を完全に無視したものがありました。
これは、何が起こっているのかわからないものです。
この男は、またしても、かなり恐ろしいです。
そして、これが一番好きでした。
超シュールです。
廊下を歩くショットは、私たちの顔出しショットということで、Gentooがどう扱うかとても興味があったんです。
しかし、Gentooは期待を裏切りませんでした。
これがそのショットなのですが、これはかなりいい出来だと思います。
私たちのキャラクターの本質を捉えていると思います。
では、この写真をすべてつなぎ合わせて、先週のシネマティック・プレゼンテーションの映画版を作りましょう。
全体として、これはとても素晴らしいことだと思います。
大学時代に見た実験的な映画を思い出させますし、大学時代にはこのような実験的な映画を1、2本作ったかもしれません。
でも、全体的には、そうですね、私たちのオリジナルのプレゼンテーションを1対1で再現しているわけではありませんが、それはそれでいいんです、私たちは本質的にあるメディアから別のメディアへと変化しているのですから。
さらに重要なのは、トーンに釘付けになったことです。これは、旅の途中で事前に絵コンテを描いたことに大きく関係していると思います。
そして最終的に、問題のあるショット、特にここでのドアや、いくつかのペーシングの問題については、Gentooの出力と途中のDiashoのものを組み合わせて使うのが最善の方法だと思います。
例えば、この場合、ドアノブをDiasho版に交換し、途中のものを使ってペーシングの問題を少し改善することで、全体的により美しい見た目のプレゼンテーションができると思います。
最後の実験として、Gentooがアニメーションをどう扱うか見てみたかったんです。
最近、『サムライ・ジャック』のエピソードをいくつか観たんですが、今でも十分楽しめますよ、ところで。
それが頭にあったんです。
そこで、mid journeyでサムライ・ジャック風のキャラクターを作成し、それをプロンプトで実行しました: サムライがカメラに向かって歩く秋の森のコンセプトアート サムライ・ジャック。
で、結局これができたんだけど、まあ、いいんじゃない。
アニメーションです。
でも、私が求めていたものとはちょっと違うんです。
クローズアップは、イメージリファレンスとの相性があまり良くなかったんです。
これが1つで、もう1つはこちらです。
しかし、最終的にこの作品とこの作品にたどり着きました。サムライ・ジャックのようなスタイルではなく、とてもクールな美学を持っていると思いました。
だから、こういった小さな実験をするときは、いつも物語性を重視しているんだ。
壮大なものである必要はないんです。
ちょっとした短編小説のようなものです。
それで、アイデアを練っているうちに、侍が他の侍と出会って決闘するというストーリーを思いつきました。
とてもシンプルな話です。
では、最終的にどのような作品に仕上がったのか、見てみましょう。
サムライ・ジャックの美学を模倣したわけではありませんが、ミニマルなサムライ・ジャックのスタイルで、クールな仕上がりになっていると思います。
ここでひとつ注意しておきたいのは、剣術のシークエンスは、実は第2世代ではなかったということです。
これは実はGen1だったのです。
なぜかというと、2代目はサムライの剣術の訓練を受けていないようなのです。
だから、あのアニメーションはできないんです。
結局、キャラクターがただ立っているだけになってしまうのです。
でも、全体的に見れば、うまくいっていると思います。
もう少し時間をかければ、もっとドラマチックでクールな仕上がりになったかもしれませんが、でも、うまくいっています。
個人的には、このすべてがとても楽しみです。
これは、初期のダリの画像が最初に出てきたときからずっと待ち望んでいた瞬間で、自分自身に「ああ、その絵に動きを加えることができる日が待ちきれない」と思っていました。
そして、予想よりもずっとずっと早く、今、私たちはここにいるのです。
Gen 2は、現在ベータ版です。
もしアクセスしたいのであれば、Discordに参加することをお勧めします。
そのリンクは下にあります。
そして正直なところ、ただぶらぶらしているのがいいんだ。
通常、1週間に1回程度、ドアを開けて人を入れてくれる。
だから、もしあなたがコミュニティの一員で、嫌な奴でなければ、参加できる可能性はかなり高いと思う。
それ以外は、Gen2が一般にリリースされるまで、おそらくそれほど長くはかからないだろう。
Gen1のベータ版は1カ月か1カ月半くらいだったと思う。
だから、それを待つという手もある。
その間に、このチャンネルから別のビデオを見てください。
私の名前はティムです。
ご視聴ありがとうございました。