
LUMA AI のDream Machine でText to Motion を試しましたが...。【情報訂正あり】
こんな記事を拝見したので、Stable Diffusion 3 の 描画質感について記事化
する予定に割り込んで、早速こちらを試してみました。
他にも CivitAI 画像公開状況⑧ の3 記事も書き上げた後、公開待機中
ですので(昨日のようにあまり同日連投は避けたい)、実に慌ただしい
です。まあそれほどこの作業関連の常識が恐ろしい速度で進化し続けて
いるということなのでした。
当面、評価なので ID は作らず、Google 連携ログインで中に入りました。

即、プロンプトを入力するだけの画面が出ます。
長いプロンプト(3行くらい)やNSFW の内容はエラーとなりました。
(これはツールの自由度を評価する上で不可避の確認です。)

で、画像比較をしたい趣旨から、先日、ADetailer の弊害を語る上で
記事中で例示した「1 girl in flowers」を何例か動作させました。
途中、あまりに地味だったりアニメ化したりするので、プロンプトに
装飾を加えましたものの、その都度うっかり単語がことごとく欠けて
しまってますが、やがて意図の通りに入力して結果を見ました。

同じプロンプトでも写実風になったりアニメになったりもAI 側 任せ(指定できず)の度合いが強いため、創作のツールとしては 私としては使えない
なあという評価です。写実風に顔の造りや表情、動作に何の指示も通らない
感じが「スマホでも動く面白ツール」の域を出ない印象です。
全くの素人がこのツールを使って「これ私がオリジナルで作った動画 ♪」
と自慢して見せるのには悪くないですが、創作者が自身の意図を
映像化するものとしては、あまりに自由度がありません。
作曲制作ツールの「BAND IN THE BOX」や「SINGER SONG WRITER」の
作曲支援機能が結果的にクリエイティブな個性ある産物に至れず、他人の
曲の楽譜を買ってきてコードや音程をちまちま打ち込んで
「これオリジナル ♪」と自慢する次元を超えられないのに少し似ています。
上掲記事中でも「試しにいくつかのプロンプトをランダム生成し、動画を生成してみました。どれも面白い内容になっています。」とありますが、
その記述の通り、プロンプト欄の下に繰り返し出て来る「Idea」そのもの
を使っているので、それはツール評価に好印象の内容に引っ張られる
でしょう。「森と滝の前でテディベアがサングラスをかけてギターを弾く」
なんて、誰が自身の創作で使いたいと思うでしょうか。

それは「こんな指定まで楽々対応」ではなくて「こんな指定をして
くれよ」という誘導に過ぎません。1980 年代に普及し始めた機能簡素化
した1 Voice シンセサイザが「チェンバロの音も、波の音も、風や爆発の
音も自在に出せる」と謳っていたのにも似ています。それらの特徴が強い
音は単純な発振回路で作れたもので、倍音の構成や時間変化が複雑なピアノ
の音など到底出なかったのに似た誘導という訳です。
自身が動画化したいイメージをどれだけ再現してくれるかが、動画生成
ツールの価値ではないかと考えます。
比較のために同じプロンプトで Stable Diffusion Web UI Forge により 静止画生成したものを Leonardo.Ai で動画化したものとLUMA AI の 動画を比較した動画を作ってみました。
(毎度ながら再生画質設定は1080p でお願いします。)
従来の動画生成だと、尺を稼ぐためにフォトレガシでの 4 秒 → 7 秒強
のスローモーション処理を使うと、題材によっては動きが緩慢過ぎる
場合もありますが、元の静止画への意図は充分制御して籠めることが
出来ます。
LUMA AI の Dream Machine では動きは自然なものの、内容全てが
AI 側にお任せな結果を授かるだけ、というのは物足りません。
プロンプトでもう少し制御や意図を追い込めるかもしれませんが
(しかも長いプロンプトは受けられない)、シーンごとに人物の
キャラクタなどもころころ変わるでしょうし、やはり従来の私の動画
作成ルーティンにとって代わるものには現時点ではなり得ない、と
評価します。
【2024/06/17 追加訂正】
…と、ここで追加訂正があります。
最近、やりとりをさせて頂いている先人様、GAT1 様が本件に関して
別の使い方を提示されていました。
原画像を用意しておき、動画に出て来る人物や対象を原画像の
時点で追い込んでおく、つまりはImage to Motion で使うという
ものでした。上記の「シーンごとに人物のキャラクタなども
ころころ変わる」もこれなら解決します。
どこに原画像を入れるところがあったの?と思ってDreamMachine
の画面見ましたら「Words or Image...」ってちゃんと書いてありました。

フィールドに原画像をドラッグするのではなく、画のアイコンを押して
PC 内のリソースを指定するようです。
「IN QUEUE」表示のまま物凄い処理時間(約 40 分 )がかかりましたが、
画面上端に「多くの需要があるため、一時的に無料ティアを1 日10 生成
に制限しています。有料ティアには優先順位があり、1 日あたりの制限
はありません。」とのアラートも出ているので、話題沸騰で処理が
追い付いていないのかもしれません。

比較動画に追加訂正版を作り、その Image to Motion の成果を最後の
シーンに加えました。
(毎度ながら再生画質設定は1080p でお願いします。)
得た成果はたまたまなのか動きがあり過ぎて、2 人のうちの後ろの
女性が前の女性の匂いを嗅いで「ん?くっさぁー…」みたいに、元々の
妖精2 人みたいな淡い雰囲気をぶち壊してますが…(^^;)。
顔の変形も凄いです。
その点、Leonardo.Ai や Runway のように Motion 変化量の指定は
欲しいです。今のところ変化量が大きくなる前に、その後を編集で
切り落とすしかなさそうです。
そうすれば従来の手法と併用して、躍動感のあるシーンも加えて
変化を演出するのに使えそうですか…。
(追記:2024/07/29)
本件には後日執筆した「追加考察」があります。
併せてご覧いただければ幸甚です。
ご覧いただきありがとうございます。