LUMA AI のDream Machine でText to Motion を試しましたが...。【情報訂正あり】

EnigMind

2024年6月16日 16:36

こんな記事を拝見したので、Stable Diffusion 3 の描画質感について記事化
する予定に割り込んで、早速こちらを試してみました。

他にも CivitAI 画像公開状況⑧ の3 記事も書き上げた後、公開待機中
ですので（昨日のようにあまり同日連投は避けたい）、実に慌ただしい
です。まあそれほどこの作業関連の常識が恐ろしい速度で進化し続けて
いるということなのでした。

当面、評価なので ID は作らず、Google 連携ログインで中に入りました。

即、プロンプトを入力するだけの画面が出ます。
長いプロンプト（3行くらい）やNSFW の内容はエラーとなりました。
（これはツールの自由度を評価する上で不可避の確認です。）

で、画像比較をしたい趣旨から、先日、ADetailer の弊害を語る上で
記事中で例示した「1 girl in flowers」を何例か動作させました。

途中、あまりに地味だったりアニメ化したりするので、プロンプトに
装飾を加えましたものの、その都度うっかり単語がことごとく欠けて
しまってますが、やがて意図の通りに入力して結果を見ました。

同じプロンプトでも写実風になったりアニメになったりもAI 側任せ（指定できず）の度合いが強いため、創作のツールとしては私としては使えない
なあという評価です。写実風に顔の造りや表情、動作に何の指示も通らない
感じが「スマホでも動く面白ツール」の域を出ない印象です。

全くの素人がこのツールを使って「これ私がオリジナルで作った動画 ♪」
と自慢して見せるのには悪くないですが、創作者が自身の意図を
映像化するものとしては、あまりに自由度がありません。

作曲制作ツールの「BAND IN THE BOX」や「SINGER SONG WRITER」の
作曲支援機能が結果的にクリエイティブな個性ある産物に至れず、他人の
曲の楽譜を買ってきてコードや音程をちまちま打ち込んで
「これオリジナル ♪」と自慢する次元を超えられないのに少し似ています。

上掲記事中でも「試しにいくつかのプロンプトをランダム生成し、動画を生成してみました。どれも面白い内容になっています。」とありますが、
その記述の通り、プロンプト欄の下に繰り返し出て来る「Idea」そのもの
を使っているので、それはツール評価に好印象の内容に引っ張られる
でしょう。「森と滝の前でテディベアがサングラスをかけてギターを弾く」
なんて、誰が自身の創作で使いたいと思うでしょうか。

それは「こんな指定まで楽々対応」ではなくて「こんな指定をして
くれよ」という誘導に過ぎません。1980 年代に普及し始めた機能簡素化
した1 Voice シンセサイザが「チェンバロの音も、波の音も、風や爆発の
音も自在に出せる」と謳っていたのにも似ています。それらの特徴が強い
音は単純な発振回路で作れたもので、倍音の構成や時間変化が複雑なピアノ
の音など到底出なかったのに似た誘導という訳です。

自身が動画化したいイメージをどれだけ再現してくれるかが、動画生成
ツールの価値ではないかと考えます。

比較のために同じプロンプトで Stable Diffusion Web UI Forge により静止画生成したものを Leonardo.Ai で動画化したものとLUMA AI の動画を比較した動画を作ってみました。
（毎度ながら再生画質設定は1080p でお願いします。）

従来の動画生成だと、尺を稼ぐためにフォトレガシでの 4 秒 → 7 秒強
のスローモーション処理を使うと、題材によっては動きが緩慢過ぎる
場合もありますが、元の静止画への意図は充分制御して籠めることが
出来ます。

LUMA AI の Dream Machine では動きは自然なものの、内容全てが
AI 側にお任せな結果を授かるだけ、というのは物足りません。
プロンプトでもう少し制御や意図を追い込めるかもしれませんが
（しかも長いプロンプトは受けられない）、シーンごとに人物の
キャラクタなどもころころ変わるでしょうし、やはり従来の私の動画
作成ルーティンにとって代わるものには現時点ではなり得ない、と
評価します。

【2024/06/17 追加訂正】

…と、ここで追加訂正があります。
最近、やりとりをさせて頂いている先人様、GAT1 様が本件に関して
別の使い方を提示されていました。

原画像を用意しておき、動画に出て来る人物や対象を原画像の
時点で追い込んでおく、つまりはImage to Motion で使うという
ものでした。上記の「シーンごとに人物のキャラクタなども
ころころ変わる」もこれなら解決します。

どこに原画像を入れるところがあったの？と思ってDreamMachine
の画面見ましたら「Words or Image...」ってちゃんと書いてありました。

フィールドに原画像をドラッグするのではなく、画のアイコンを押して
PC 内のリソースを指定するようです。
「IN QUEUE」表示のまま物凄い処理時間（約 40 分）がかかりましたが、
画面上端に「多くの需要があるため、一時的に無料ティアを1 日10 生成
に制限しています。有料ティアには優先順位があり、1 日あたりの制限
はありません。」とのアラートも出ているので、話題沸騰で処理が
追い付いていないのかもしれません。

比較動画に追加訂正版を作り、その Image to Motion の成果を最後の
シーンに加えました。

（毎度ながら再生画質設定は1080p でお願いします。）

得た成果はたまたまなのか動きがあり過ぎて、2 人のうちの後ろの
女性が前の女性の匂いを嗅いで「ん？くっさぁー…」みたいに、元々の
妖精2 人みたいな淡い雰囲気をぶち壊してますが…(^^;)。
顔の変形も凄いです。

その点、Leonardo.Ai や Runway のように Motion 変化量の指定は
欲しいです。今のところ変化量が大きくなる前に、その後を編集で
切り落とすしかなさそうです。

そうすれば従来の手法と併用して、躍動感のあるシーンも加えて
変化を演出するのに使えそうですか…。

（追記：2024/07/29）

本件には後日執筆した「追加考察」があります。
併せてご覧いただければ幸甚です。

ご覧いただきありがとうございます。

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

47,844件