見出し画像

Luma Dream Machine+ElevenLabsで効果音付きの動画を自動生成

テキストや画像1枚から一貫性のある動画を自動生成できるLuma Dream Machineを試してみました。また、この動画生成AIで作成した動画にElevenLabsVideo to Sound Effects Generatorで効果音を付けてみました。



1.Luma Dream Machineの使い方

最初に以下のバナーをクリックして、Luma Dream Machineのサイトにアクセスします。

そして以下の最初のページの右上の「Try Now」をクリックします。

そして、以下の「Sign in with Google」をクリックして、自分のGoogleアカウントでサインインすると、Dream Machineを使用できるようになります。

以下の入力欄にプロンプトを入力して、右端の↑ボタンをクリックすると動画生成が始まります。
また、左端のイメージボタンをクリックして、自分のPC上の画像をアップロードできます。
入力欄の下には、6種類のプロンプト例から1つが表示され、それをクリックすると、入力欄にそのプロンプトが入力されます。

無料プランでは月に30回動画を生成できます。また、現在、1日5回までの制限があります。1日10回までの制限になっていたこともあり、制限回数は混雑状況によって変わります。また、無料プランでは、かなり待ち時間が長くなることがあります。
月23.99ドル(6/20現在3,807円)以上払って有料プランに加入すると、制限が緩和され、待ち時間が短くなり、商業利用も可能になります。

なお、複数のGoogleアカウントを利用すると、事実上制限回数を超えて動画を生成できます。


2.画像からの動画生成

イメージボタンをクリックして自分のPC上の画像をアップロードし、プロンプトを入力して送信すると、1枚の画像から5秒間の動画を生成することができます。

プロンプト例:A woman dancing ballet, her arms gracefully extending upward as she twirls around, the dancers behind her bowing low to the ground(バレエを踊る女性。腕は優雅に上に伸び、くるくると回り、後ろのダンサーは低くお辞儀をしている。)

簡単なプロンプトを入力してEnhance promptにチェックを入れ、プロンプトを自動的に追加してもらう方法と、自分で対象物の具体的な特徴や動きの内容を記載する方法があります。

(1) 簡単なプロンプトとEnhance promptを使用した例

以下の例は、ChatGPTのDALL-Eで画像生成し、その画像と簡単なプロンプトを入力して、Enhance promptを使用したものです。

DALL-Eで生成した画像
入力画像と入力プロンプト

【出力結果】

(2) 画像生成用のプロンプトを動画生成にも使用した例

以下の例は、ChatGPTのDALL-Eで画像生成し、その画像と画像生成に使用されたプロンプトを入力して動画を生成したものです。Enhance promptは使用していません。

A hyper-realistic depiction of a beautiful Japanese ghost woman dressed in a white kimono dancing. The scene is eerie and ethereal, set against a dark, misty background. Her long, black hair flows as she moves gracefully, with an otherworldly glow surrounding her. Her face is exceptionally beautiful with delicate features and an expression of serene sadness. The setting includes traditional Japanese elements like paper lanterns and a torii gate in the distance, adding to the haunting atmosphere.
入力画像と入力プロンプト

【出力結果】

(3) 特にプロンプトを入力しないで動画生成した例

自然に画像を動かすためには、特にプロンプトを入力しない方がよいという考え方もあります。その場合、何も入力しないと動画生成ができないため、例えば「.」(ピリオド)だけを入力して送信します。

上記(2)と同じ入力画像で試してみます。

【出力結果】

(2)よりは動きが少ないですが、破綻のないズームアップの動画を生成することができました。

画像からの動画生成のコツは、動きの感じられる画像を使用することです。動きの感じられない画像だと、対象物が動かずに、停止したまま位置が移動するだけの動画になってしまいます。入力画像を生成する際に「踊っている」「走っている」などの動きを表す言葉をプロンプトに入れると、動きの感じられる画像を作成することができます。


3.テキストからの動画生成

入力欄にテキストを入力して送信するだけで、5秒間の動画を生成することができます。この場合も、簡単なプロンプトを入力してEnhance promptを使用する方法と自分で具体的に対象物や動きの内容を記載する方法があります。

自分で具体的に記載する場合は、カメラの動き、対象物の特徴、対象物の動きの内容、背景などを具体的に書くとよいとされています。カメラの動きの記載方法は「A dramatic zoom in(劇的なズームイン)」「An FPV drone shot(FPVドローン撮影)」などがあります。
※FPVドローン:パイロットがゴーグルなどによりドローンのカメラ映像をリアルタイムで見ながら操縦するドローン

(1) プロンプト例からの新プロンプト作成

入力欄の下にランダムに表示される6種類のプロンプトの例は以下の通りです。これをクリックすると、入力欄にそのプロンプトが入力されます。また、これらのプロンプトを参考にして、プロンプトを作成すると、高品質な動画が生成できると思います。

  1. A teddy bear in sunglasses playing electric guitar, dancing and headbanging in the jungle in front of a large beautiful waterfall(大きな美しい滝の前のジャングルで、エレキギターを弾き、踊り、ヘッドバンギングをするサングラス姿のテディベア)

  2. Low-angle shot of a majestic tiger prowling through a snowy landscape, leaving paw prints on the white blanket(雪景色の中を徘徊し、白い雪の毛布に足跡を残す雄大な虎のローアングルショット)

  3. Grazing cows move slowly across an idyllic meadow, the camera tracking alongside them in a smooth side-angle motion(のどかな草原を草を食む牛がゆっくりと移動し、カメラが牛の横を滑らかな横アングルで追尾する)

  4. Fast FPV drone flythrough of a European castle, beginning with an aerial view of the towering stone walls and turrets, then gliding through an open window into the grand interior halls.(ヨーロッパの城をFPVドローンで高速フライスルー。高くそびえる石壁と砲台の空撮から始まり、開いた窓から壮大な内部ホールへと滑空する)

  5. An old lady laughing underwater, wearing a scuba diving suit, her expression denotes calm and happiness(スキューバダイビングスーツを着て、水中で笑う老婦人)

  6. Extreme closeup footage of a young sailor woman with a concerned expression during a rainstorm.(暴風雨の中、心配そうな表情を浮かべる若い船乗りの女性の極端なクローズアップ映像。)

これらのプロンプト例を利用して、性能の高い動画を生成できる新しいプロンプトをChatGPTで作成することができます。

【ChatGPTに入力するプロンプト】

以下のプロンプトを参考にして、ドローンで日本の典型的な観光地の風景を撮影したビデオを動画生成AIで自動生成するための英語プロンプトを3つ考えてください。
参考プロンプト:Fast FPV drone flythrough of a European castle, beginning with an aerial view of the towering stone walls and turrets, then gliding through an open window into the grand interior halls.

【ChatGPTの回答】

1.Fast FPV drone flythrough of a traditional Japanese temple, beginning with an aerial view of the iconic red torii gate and surrounding lush gardens, then gliding through the temple entrance into the serene interior with wooden architecture and tatami mats.(日本の伝統的な寺院をFPVドローンで高速フライスルー。象徴的な赤い鳥居と周囲の緑豊かな庭園の空撮から始まり、寺院の入り口から木造建築と畳敷きの落ち着いた内部へと滑空する。)
2.Fast FPV drone flythrough of a bustling Japanese cityscape, starting with an aerial view of the Tokyo Tower amidst skyscrapers and busy streets, then diving down to street level to navigate through crowded shopping districts and colorful neon signs.(賑やかな日本の街並みをFPVドローンで高速フライスルー。高層ビルと賑やかな通りに囲まれた東京タワーの空撮から始まり、通りに降りて混雑した商店街やカラフルなネオンサインをナビゲートする。)
3.Fast FPV drone flythrough of a scenic Japanese coastal village, beginning with an aerial view of rocky cliffs and blue ocean waves, then swooping down to fly through narrow streets lined with traditional wooden houses and fishing boats docked at the harbor.(風光明媚な日本の海岸沿いの村をFPVドローンで高速フライスルー。岩だらけの崖と青い波の空撮から始まり、伝統的な木造家屋と港に停泊する漁船が並ぶ狭い通りを急降下して飛行する。)

括弧内は日本語訳

1のプロンプトをDream Machineで使用した出力結果は以下の通りです。

(2) 英語プロンプトと日本語プロンプト

上記(1)の動画作成で使用した英語プロンプトを日本語訳して、Dream Machineに入力してみます。

日本の伝統的な寺院をFPVドローンで高速フライスルー。象徴的な赤い鳥居と周囲の緑豊かな庭園の空撮から始まり、寺院の入り口から木造建築と畳敷きの落ち着いた内部へと滑空する。

【出力結果】

日本語プロンプトでうまく動画生成できている例もネットで見かけたのですが、今回は全くプロンプトの指示に従ってくれず、見当はずれの動画になってしまいました。

次に以下のプロンプト(日本語)で動画生成してみました。

白い猫は合っていますが、動きが指示通りになっていません。ある程度は日本語でも理解しているようですが、やはり、日本語プロンプトでの動画生成は難しいようです。


4.動画の延長

生成した動画の下に表示されるExtendボタンをクリックして、5秒間の動画をさらに5秒間延長することができます。この機能を連続して使用すれば、どんどん動画を長くしていくことができます。

(1) 同じプロンプトで延長

最初に動画を生成した時と同じプロンプトで動画を延長します。

【出力結果】

プロンプトの指示どおりに畳の部屋には入らず、後半は少し不思議な動画になりました。

(2) プロンプト無しで延長

特にプロンプトによる指示をせず、ピリオドだけを入力して動画を延長します。

【出力結果】

変化の少ない自然な繋がりの動画になりました。

(3) 異なるプロンプトで延長

次に、最初のプロンプトと異なるプロンプトを入力して動画を延長します。

【プロンプト】
As the FPV drone passes through the temple building, the view of the beach with the waves crashing on the rocky shore is spread out.(FPVドローンが寺院の建物を通り抜けると、岩場に波が打ち寄せるビーチの景色が広がる。)

【出力結果】

自然に動画を繋げるなら、特にプロンプトを使用せずにピリオドだけを入力し、想定する続きのイメージがある場合は、具体的にプロンプトで指示するのがよいようです。


5.Video to Sound Effects Generatorの使い方

Video to Sound Effects Generatorは、音声合成AIを開発・提供しているElevenLabsが開発した動画から効果音を自動生成するAIで、現在は無料で使用できます。

最初に以下のバナーをクリックして、Video to Sound Effects Generatorのサイトにアクセスします。

次に、真ん中のボタンをクリックして、効果音を付けたい動画をアップロードします。

すると、AIが動画を分析して、4種類の効果音を作成します。

効果音の右側のダウンロードボタンをクリックすると、選択した効果音の付いた動画ファイルをダウンロードすることができます。


6.効果音の追加

実際に、Dream Machineで作成した動画に効果音を付けてみます。

【元動画】
プロンプト:A single motorcycle drives through the crowded urban streets in the daytime. (昼間、混雑した都会の通りを一台のオートバイが走り抜ける。)

Video to Sound Effects Generatorに動画をアップロードして、4種類の効果音を作成します。

4種類の効果音から一番しっくりとくる効果音を選んで、右側のダウンロードボタンをクリックします。すると、効果音の付いた動画ファイルをダウンロードできます。今回は一番上の効果音を使用しました。

もう一つ試してみました。

以下は、一番上の効果音を使用した動画です。

このように効果音が想像しにくい動画でも、適当な効果音を作成してくれます。


7.キーフレーム機能

Dream Machineに新機能Keyframesが追加されたので試してみました。これは、動画にする最初の画像と最後の画像を指定すると、その間の画像を補完して、一貫性のある動画を作成するという機能です。

(1) 使い方

1.Dream Machineの入力欄に最初の画像をアップロードすると、以下のように+END FRAME (OPTIONAL)というボタンが現れます。

2.このボタンをクリックして、最後の画像をアップロードします。

3.動画用のプロンプト(例:A Woman looks back.)を入力し、↑ボタンをクリックすると、動画が生成されます。

車の動きがおかしいですが、自然な感じで女性を振り向かせることができました。無料版だと、待ち時間が非常に長いです。この動画の生成には、半日以上待ちました。

(2) キーフレーム機能の使用例

【最初の画像】

【最後の画像】

プロンプトは「A Japanese woman looks back.」

桜の木の庭で日本人女性が振り返る動画を生成することができました。

次は、人物のいない風景画像で試してみます。

【最初の画像】

【最後の画像】

プロンプトは「After passing through the tunnel of flowers, a rugged seascape unfolds.」

繋ぎ方に少し違和感が残りますが、花のトンネルを抜けて、海岸の絶壁に出るという動画を生成することができました。

AIを使用しても、素晴らしい動画を作るには手間と運とセンスが必要ですが、是非、最高の動画を目指してトライしてみてください。僕が作成したよりも遥かによい動画ができるはずです。
手間:よい動画ができるまで何度も試してみること
:ガチャで動きのよい動画を引き当てること
センス:どういう動画がよい動画か判断できること

この記事が気に入ったらサポートをしてみませんか?