見出し画像

気になる生成AI備忘録-vol.23-Lumaの動画生成AI「Dream Machine」

■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた・あるいは単発の備忘録を共有する連載シリーズです。

より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。

今回は、Lumaの動画生成AI「Dream Machine」について。
※本来この「気になる生成AI備忘録」はローンチ前、開発段階のものを取り上げていますが、今回は実際に触れた内容をまとめています

↑こちらLuma AIのポストから気になったのですが、Lumaの動画生成AI「Dream Machine」は開発中というものではなく、すでに利用可能だということで、早速触ってみました。

まず、「Dream Machine」の概要ですが、

・テキストまたは画像から動画生成できる
・無料利用可(無料プラン)

無料プランの制限や有料プランは以下の通りです。

無料プラン(Freeプラン)だと生成される動画は5秒尺です。

「何だよ、たった5秒の動画しか出来ないのかよ」と感じる方もいるかもしれませんが、基本的にこれまでの既存の動画生成AIはそんなものでした。(最大で4秒とか)

だからこそ、OpenAIのSoraGoogleのVeoが”1分(ないし1分以上)”の動画が作れると発表時に触れられた際、動画生成AIはSora以前Sora以降で分かれるだろう、と個人的には思ったものです。

そして直近の動画生成AIとしては中国快手のKlingが登場し、界隈を賑わせています。

↑ポストの通り、Klingは中国の電話番号がないとウェイトリスト登録不可のため、日本では現状何もできません。

そういった直近の背景があってか、無料で利用可能だという「Dream Machine」を知り、直ぐに試す運びになったわけです。

で、最初に作ったのが、サメ動画になります。(完全に最近Netflixで『セーヌ川の水面の下に』 という映画を観たせいですw)

私自身、サメ映画はジョーズから何から、これまで全てのサメ映画を観てきています。「Dream Machine」で生成された動画を観た瞬間、「お、これは実用性が高いのでは?」と感じました。

続けて「Dream Machine」で生成したのが、OpenAI公式・Soraのアナウンスページで掲載されている動画のプロンプトから作ってみました。

↑のプロンプトで試したら、「Dream Machine」でも同じような動画は出来るのか、その検証の意味合いも込めて生成したのが↓です。

「Dream Machine」の無料プランでは5秒間の動画しか作ることが出来ませんが、その範疇ではよく出来ているかなという印象を受けました。

同じように、Soraのプロンプトを使わせてもらい、もう1本「Dream Machine」で生成してみました。

↑こちら、『複数のモニターがあり、各モニターごとに異なる映像が映し出されている』というSoraの動画用プロンプトになります。

ポストでも触れたように、私自身、これまで一般利用できる既存の動画生成AIは全て触ってきた口です。

その、これまでの既存の動画生成AIでは、”複数のモニター”までは生成されても、”各モニターごとに異なる映像が映し出される”というのはありませんでした。

どの動画生成AIで試しても、各モニターごとに異なる映像が映し出されることはなかったのです。

そのため、技術の進化は顕著で、わかりやすくいうと「Dream Machine」のプロンプトの理解力がスゴイということになります。

次に「Dream Machine」で試してみたのが、画像+プロンプトです。

良い感じにモノクロ仕上げの女性画像を生成していたこともあって、その画像と、以下のプロンプトで試してみました。

A scene of talking. Lip Sync.

このプロンプトは「喋っているシーン。リップシンク。」という意味で、リップシンクは、いわゆる”口パク”です

生成された動画を観て、「あー、こりゃもう実用できるかな」と。

すぐにAIで音声を入れて命を吹き込んでみようとも思いましたが、また別の動画を作ってみました。

またSoraのアナウンスページで掲載されている動画で、他で試したらどうなるのか気になるものだったので、そのプロンプトで生成しました↓

↑の生成動画ですが、Soraのような動画にこそならなかったものの、単純に動画としては悪くないかと。

というのも、人の動きがそれぞれ別の動きをしています。

「それが何か?」と思う方もいるかもしれませんが、これまでの動画生成AIではこのムーブは出来なかったことです。動いても途中で人が消えたり破綻したり別人になっていったり、不自然さが目立つ感じだったのが、この生成動画では動画内の各人がある程度自然に動き・所作として見れるようには感じました。

こりゃあもうアフレコしてみるしかないか、と。

たった5秒の動画ですが、命を吹き込む作業です。

AI音声(elevenlab)で英語セリフを生成し、アフレコしてみたのが↓の動画です。

既存の実際の何か映画を真似て作ったらわかりやすいとも思いましたが、なんとなくそれでは芸がないなと思い、よくありそうな映画のワンシーンとして作ってみたものです。

ハリウッド映画にアフレコが多い(だから基本聞きやすい)のは昔からですし、「Dream Machine」のリップシンク(口パク)の見栄えならそこそこ良い仕上がりになるのではと思い試みましたが、まあまあ思った通りかなと。


ちなみに、同一人物キャラで試したら、5秒内に破綻して別人になってしまった例も有りました。これは、いつか「Dream Machine」である程度の”ワンシーン長回し”が作れるようになるのではと思い、試みたのですが…上手くいかないケースもあるということでしょう。

有料プランだったら基本的に求めることは出来るのかな?

と思い、「Dream Machine」の開発元・Lumaの公式Xアカウントに「3つの有料プラン、それぞれ詳しく教えてほしい」と、英語でリプしてみたのですが返事がありませんw

ちゃんと英語で聞いたんですけどね、何でしょ、「こいつ日本人か、無視無視」みたいな感じでなめられてるんですかね。(こちらが日本のAI界隈インフルエンサー的なポジションだったらどうせすぐ答えるだろうに)

有料プランの詳細は、課金検討であれば知っておきたいところなのです。

↑これ、3つの有料プラン、それぞれクリックするといきなりもう決済画面になってしまうんです。

各有料プランそれぞれ月々に生成できる回数だけ表示されてるのみで、無料プランとの差異、有料プランによっては生成できる動画尺(それこそ1分とかそれ以上とか)も変わって来るのか等、気になる点はいくつかあります。

単純にサポート対応悪くてというか、このまま有料プランについて何もわからなかったら課金は現状見送ろうと思っています。

エンドユーザーを大切にできない、まして手前の有料サービスに関するサポートがぞんざいでは課金しても不安が付いて回ると思うので。

それでも、年間250本近く映画を観る私としては、「Dream Machine」はとてもワクワクするものであり、クリエイティブな気持ちを引き上げてくれます。(久しぶりに生成AIでワクワクしたかもです)

尤も、映画が好きで映画を撮りたい私なので、「Dream Machine」のような動画生成AIが出て、発表だけあったSoraとは違い、実際に触ることが出来る・実際に動画生成できるというのは単純に嬉しいものです。

「感慨深い」というのが率直な想いというか、今まで一般利用できる動画生成AI全て触ってきた中では、「Dream Machine」は人間の表情、所作も綺麗で一番実用性あるレベルには思えます。

動画生成AIもここまで来たかと、実感できました。

▼「Dream Machine」


※追記6/15※

5秒以上の動画が作れないと、例えばPVやMV、映画(予告編等)制作しようにも、5秒の動画を結合して1本に仕立て上げる形になります。


以下、Dream MachineのFAQとプロンプトガイドをわかりやすく日本語化したものです。

FAQ and Prompt Guide: Luma Dream Machine
Getting Started with Dream Machine

Welcome to Dream Machine, we put together this page to help you get started with Dream Machine and answer any questions that come up along the way. This is a living document as we continue to grow and learn. Please share any feedback and questions with us in our Discord channel! https://discord.com/invite/lumaai

FAQとプロンプトガイド:Luma Dream Machine
Dream Machineの始め方
Dream Machineへようこそ!このページでは、Dream Machineの使い方を説明し、途中で出てくる質問に答えます。このドキュメントは成長と学びと共に更新されるものです。フィードバックや質問があれば、ぜひDiscordチャンネルで共有してください!
https://discord.com/invite/lumaai

Dream Machine

 How to prompt?
 Image to Video

- Upload a JPG, JPEG or PNG image by clicking the image icon on the generation page, you can also choose to provide a prompt to describe the scene.
- With “Enhance Prompt” enabled, you just need to describe what you want to happen in the scene. For example: `<image of a car> + “*a red car driving on a road*”`
- It’s especially helpful to describe the types of motions that you want to happen in the video
- If you cannot get the desired output, you can try without “Enhance prompt”. This requires describing the image + what you want to happen in the scene.
- You might see no or low motion with unenhanced prompts. Try to include motion cues in your prompt if necessary.
- In either case, it helps to describe the important details in the image as much as possible, what types of actions are being performed, and how the different parts of the scene should move. E.g., `A woman dancing ballet, her arms gracefully extending upward as she twirls around, the dancers behind her bowing low to the ground`

プロンプトの使い方
画像からビデオへ

JPG、JPEG、またはPNG画像を生成ページで画像アイコンをクリックしてアップロードします。また、シーンを説明するプロンプトを提供することもできます。「プロンプト強化」が有効な場合、シーンで何が起こるかを説明するだけでOKです。
例:<車の画像> + “赤い車が道路を走っている”

特にビデオ内で起こる動きのタイプを説明すると効果的です。
望む結果が得られない場合は、「プロンプト強化」なしで試してください。これには、画像を説明すること+シーンで起こることを記述することが必要です。プロンプトを強化しない場合、動きが少ないか全くないことがあります。必要に応じてプロンプトに動きのキューを含めるようにしましょう。
いずれの場合も、画像の重要な詳細、実行される動作のタイプ、シーンの各部分がどのように動くかをできるだけ詳しく説明すると良いでしょう。
例:バレエを踊る女性、腕を優雅に上に伸ばしながら回転し、その背後でダンサーたちが地面に低くお辞儀している

Dream Machine

Text to video
- A great way to start to get good results is to use “Enhanced Prompt”. By enabling this you can use short prompts like *“a teddy bear swimming in the ocean”* and the Dream Machine will automatically generate additional descriptions to help create a more detailed generation.
- If you are not able to get the expected results, try without “Enhance Prompt”. **Unenhanced prompts need to describe the contents of the scene and the desired action (3-4 sentences)**.
Ex: `“*In a somber, nostalgic style, a young man sits on a tree stump in a forest, the warm autumn leaves surrounding him. He wears a brown jacket, dark shirt, and blue jeans, his fingers deftly moving along the fretboard of an acoustic guitar.*”`
- In general, you may get better results by being more specific about:
- Camera motion: `*“A dramatic zoom in”, “An FPV drone shot”*`
- Actions and motion: `*“A teddy bear swimming with its arms and feet as the turbulent water splashes all around”*`
- Object features: `*“A white teddy bear wearing sunglasses with soft fur texture”*`
- Setting and background: `“A beautiful cloudy sunset near a Caribbean beach”`

テキストからビデオへ
良い結果を得るための良い方法は、「プロンプト強化」を使用することです。これを有効にすると、“テディベアが海で泳いでいる” のような短いプロンプトを使用でき、Dream Machineが自動的に詳細な生成を行うための追加説明を生成します。
期待した結果が得られない場合は、「プロンプト強化」なしで試してください。強化されていないプロンプトは、シーンの内容と望む動作を説明する必要があります(3-4文)。
例:“*もの悲しくノスタルジックなスタイルで、若い男性が森の切り株に座り、暖かい秋の葉が彼を取り囲んでいる。彼は茶色のジャケット、暗いシャツ、青いジーンズを着ており、指はアコースティックギターの指板を巧みに動かしている。*”
一般的に、次の点について具体的に説明すると良い結果が得られるでしょう:
カメラの動き:*“劇的なズームイン”、“FPVドローンショット”*
動作と動き:*“波立つ水があたりに飛び散る中、腕と足で泳ぐテディベア”*
オブジェクトの特徴:*“柔らかい毛の質感を持つサングラスをかけた白いテディベア”*
設定と背景:“カリブ海のビーチ近くの美しい曇りの夕焼け”

Dream Machine

FAQ - Frequently Asked Questions
1. **Why am I not getting the video back/stuck with “in queue”**

The community has been experimenting with Dream Machine. Since launch, we have added extra capacity to scale to meet the demand. To make sure everyone has the best experience possible, we are dynamically limiting and relaxing the number of free generations, and to help those who need it the most - prioritizing paid accounts. We will keep on working to improve everyone's experience and are immensely grateful for your patience and interest.

2. **What would a subscription get me?**
- Higher priority generations when there is a queue
- Commercial use rights

*No-watermark downloads for the Pro and Premier tiers will be rolling out soon, as we are still developing solutions for it. We’ll update this doc and send notification in discord once it’s developed.

FAQ - よくある質問
1. なぜビデオが返ってこない/「キューに入っている」と表示されるのか

コミュニティはDream Machineを実験しています。ローンチ以来、需要に対応するために追加のキャパシティを増やしました。皆が最高の体験を得られるように、動的に無料生成の数を制限および緩和し、必要とする人を助けるために有料アカウントを優先しています。皆さんの体験を向上させるために引き続き努力しており、皆さんの忍耐と関心に深く感謝しています。

2. サブスクリプションで何が得られるのか

キューがある場合の高優先度生成
商業利用権
*プロおよびプレミアティアにはウォーターマークなしのダウンロードが間もなく導入されます。現在、これに対する解決策を開発中です。開発が完了次第、このドキュメントを更新し、Discordで通知します。

Dream Machine

3. Why are the free credits subtracted when I subscribe?
It was a miscommunication on our end and we have fixed that issue now! Paid tiers now get the free generations + the paid generations, and this applies to previous paid users as well.

4. I am getting “Error generating video, please try again. (Network Error)?
If you are doing image to video, this might be because the image type you uploaded is not supported, or your image file is too large. Try converting the image to a jpg, jpeg or png, and reduce the size of the image. We are working on improving this error message and appreciate your feedback.

5. Is it possible to generate more than 5 seconds/add negative prompt/change aspect ratio?

It's not yet supported. We are working on additional controls for upcoming versions of Dream Machine. We appreciate all of your feedback. If you have anything that you would like to see in upcoming versions please share in our Discord at https://discord.com/invite/lumaai

3.なぜサブスクライブすると無料クレジットが減るのか

これは私たちの誤解によるもので、現在は修正されています!有料ティアは無料生成と有料生成の両方を受け取ることができ、以前の有料ユーザーにも適用されます。

4.「ビデオの生成エラー、もう一度お試しください(ネットワークエラー)」が表示されるのはなぜか

画像からビデオを生成する場合、アップロードした画像の形式がサポートされていないか、画像ファイルが大きすぎる可能性があります。画像をjpg、jpeg、またはpngに変換し、サイズを縮小してみてください。このエラーメッセージの改善に取り組んでおり、フィードバックをお待ちしています。

5.
5秒以上の生成、ネガティブプロンプトの追加、アスペクト比の変更は可能か


まだサポートされていません。Dream Machineの今後のバージョンに向けて追加のコントロールを開発中です。皆さんのフィードバックを大切にしています。今後のバージョンで見たいものがあれば、Discordで共有してください。 https://discord.com/invite/lumaai

Dream Machine

6.Will it be available on Discord?

Dream Machine is currently only available on https://lumalabs.ai/dream-machine

7. Is it possible to use the videos from Dream Machine for commercial use?

The free tier doesn’t grant permission for commercial use, as defined in our Terms of Service https://lumalabs.ai/legal/tos. You can lift this limitation by subscribing to any of the paid tiers.

8.Why am I not getting my generation?

If it’s a new generation, you might need to refresh the page or click on the video to see it. If refreshing the page doesn’t work, please send a help ticket in our Discord to let us know.

*There was a small outage between 10:00-11:00 PM PST on 6/13, causing some of the generations submitted during those times not showing up. We are working on bringing back those videos, and will provide an update here.

6.Discordで利用可能か

Dream Machineは現在、https://lumalabs.ai/dream-machine のみで利用可能です。

7.Dream Machineのビデオを商業利用することは可能か

無料ティアでは商業利用の許可がありません。利用規約に定義されています。 https://lumalabs.ai/legal/tos。有料ティアにサブスクライブすることで、この制限を解除できます。

8.生成結果が表示されないのはなぜか

新しい生成の場合、ページをリフレッシュするか、ビデオをクリックする必要があります。ページをリフレッシュしても解決しない場合は、Discordでヘルプチケットを送信してお知らせください。

*6月13日の午後10時から11時の間に小規模な障害が発生し、その時間に提出された生成が表示されない場合があります。これらのビデオを復元するために取り組んでおり、ここで更新を提供します。

Dream Machine

というか、このnoteを最初に書いた6/13時点では、↑のようはFAQはありませんでした。(無料・有料プランに関するページも15日にそれなりの詳細が明記となりましたし)

↑の5を見るに、5秒以上の生成に関してまだサポートされていませんとのことですが、ここは個人的に最も気になることというのもあって、公式サポートにメール問い合わせしました。

内容としては、「有料プランのいずれかで5秒以上の動画生成は可能になるか?課金を検討しているので気になっています」というスタンスの英文で問い合わせました。

各プランページ(アカウントページ)のUIを微妙に更新したり、FAQを置いたり、おそらく運営としては想定以上のアクセスと反響に泡食ってる感じも見受けられます。

良く言えば、臨機応変にUI/UXを改善(ユーザーの声を一応拾ってる?)
悪く言えば、何かとリソース不足、といったところでしょうか。

問い合わせ回答は大体24-48時間以内の返答が基本かとは思いますが、気長に待つのが良いのかなぁとは思っています。

Dream Machine、いわゆるアニメーション系動画生成AIにおいて、1回の生成で5秒以上の動画生成が可能になれば、それは革命です。

革命ではありますが、生成AI界隈は非常に動きが早いです。極論、昨日一昨日の情報はもう古いとさえ言えるほどに。

動画生成AI技術の進化のスピードを思うと、これからどんどん長尺動画は作れるようになると思います。実際、まだ一般利用できないOpenAIのSoraやGoogleのVeoなんかは1分尺の動画をサービス発表時に公開していますし。

Dream Machineに関して1つだけ穿った見方をすると、有料移行させたいがために、無料ユーザー(無料プラン)の生成キューを長くしている感はあるなと。


※追記6/18※

このnoteを最初に書いた6/13時点では、↑のようはFAQはありませんでした。(無料・有料プランに関するページも15日にそれなりの詳細が明記となりましたし)

と、↑で書きましたが、一向にDream Machineのサポートからは応答がありません。

気長に待とうかなというスタンスではあるものの、Dream Machineがもし、「いや、FAQ内で5秒以上の動画サポートは未だしえいないと明記してるんだが?」なんて考えだったとしたら、結構お粗末だなぁと。

それは都合よく後付けで加えたものであり、当初のUIではわかりえなかったことなので、もしそのようなスタンスでしかなかったら…私個人的には、サポート対応はザル、いや、何の応答すらもないのでザル以下とさえ感じます。

あれかな、思いのほか初動良すぎて遠い日本の無料エンドユーザーなんぞは切り捨て方式なのかな?

サービスを提供する側として、「15日にFAQを取りまとめ、その中でも触れていますが、5秒以上の動画は未サポートです」の一言くらいなぜ出せないのかなーとも。

有料移行させたいがために、無料ユーザー(無料プラン)の生成キューを長くしている感はある、とも↑で書きましたが、無料ユーザーは結局ぞんざいな扱いという事なんですかね。

だとすれば残念の一言ですが、もはや動画尺・生成可能な時間的な観点でいうなら

この辺が日本でも一般利用できるようになったら、「Dream Machine?そういえばあったねぇ」となってしまいそうな気配を感じてしまいます。

それくらい、ここ日本において生成AIモノなんて移り変わりは激しい現状なので。

日本における現状のDream Machineの利用は、「無料で動画が作れるから」というのが、AIリテラシーの有無に限らず大きいところかと。
Dream Machineを使って昔の写真から動画生成している方や、面白ネタ枠で利用されている方のブームやムーブメントは一時的なものだと思われます。

生成AI市場は競争が激しく、ユーザーサポートが不十分なサービスは他の競合に取って代わられる可能性が高いです。

※追記6/23※

6/15に公式サポートに問い合わせて以来、何の返事もないまま。

「あそこの店、料理は美味いんだけど店員の態度が…」っていうのと同じような感じというか、、、とりあえずDream Machineはもう追うのも課金も利用も止めておきます。

弱者はツライものです。(インフルエンサーとかならどうせすぐ応答あるくせに)

最早普通に印象悪いし、この個人的に小ばかにされている感じ、絶対に忘れない。

生成AIサービスって基本的に海外発ですが、中には「これ使ってください」とかある開発元もあれば、エンドユーザーをぞんざいに扱う開発元もあります。

加えて、細かな日本語のニュアンスまで伝わりきらないので、それだけでストレスにもなるため、サポート対応が杜撰なところは本当に残念に思います。

※追記7/4※

未だに何の応答もサポートからはないため、Dream Machineは触っていませんでしたが、1つ検証してみたくてそれを試してみました。

ワンシーン長回しが思うように出来ない、現時点での動画生成AI技術は映画や予告編の制作にはまだ限界があります。特にワンシーンの長回しができないという点は、大きな制約となっています。

よくX等でもAI生成動画が投稿されていますが、やはり見せ方に限界があるというか。件のワンシーン長回しができない時点で2、3秒のクリップを結合の形でしか見せられないわけで、そんな2、3秒程度じゃ見せ方も限られてしまうわけで。

現在の技術の限界といえるかなと。

シーンの一貫性:動画の一貫性を保つのが難しく、人物が途中で変わってしまうことがある。

クオリティの維持:短いクリップでは高品質な生成が可能ですが、長いシーンでは品質が低下することが多い。

ポストプロセスの必要性:生成後に手動で編集する手間が増える。

改善の方向性としては

  1. より高精度なモデル:モデルの精度と安定性を向上させることで、長回しのシーン生成が可能になる。

  2. データセットの拡充:多様で質の高いデータセットを用いることで、モデルの学習効果を高める。

  3. ハイブリッドアプローチ:AI生成と人間の手による編集を組み合わせることで、クオリティを維持しつつ長いシーンを生成する。

で、現状の対応策ですが

  • クリップの結合:現時点では、短いクリップを結合して一連のシーンを作る手法が一般的ですが、これは見せ方に限界があります。

  • 編集ツールの活用:生成されたクリップを編集ソフトで組み合わせ、シーンの一貫性を保つように工夫する。

技術の進化に期待しつつ、Soraなどの新しいツールが登場すれば、これらの課題が解決される可能性があります。特に、長時間の一貫したシーンを生成する能力が向上すれば、映画や予告編の制作にも適用できるのかなと。

ちなみに

現状ですと、↑のLiber氏のように、圧倒的画力(えぢから)など、魅力的要素がない限り、せわしなく2秒程度のカットで切り替わってしまう絵面では見せ方に限界があるわけです。

短いカットの連続では視聴者に強い印象を与えるのが難しいです。特に、映画や予告編のような視覚的に魅力的でストーリーテリングが求められるメディアでは、長回しのシーンが重要な役割を果たします。(果たすと思います)

短いカットの連続では、視聴者が物語に没入するのが難しくなるというストーリーテリングの難しさがあり、シーンの切り替えが頻繁だと、視覚的な一貫性が失われ、作品全体の質が低下する可能性もあります。

Liber氏のように、圧倒的画力で魅せるのか、音楽・SE(サウンドエフェクト)で魅力を出すか等、現状は見せ方に限りがある分、工夫が必要とされます。

※後半若干Dream Machineから逸れてしまったので、以降追記せず、ここで終わりにします

この記事が気に入ったらサポートをしてみませんか?