見出し画像

Cog Studio を含めた新 3 者比較をする予定でしたが辞めました。もう Cog Studio だけで充分です。

この記事に続く動きとして、Leonardo.Ai の代わりに Cog Studio と
KlingAI と LUMA AI の DreamMACHINE の 3 者比較記事執筆を目指して、
動画生成をそれぞれにさせていましたが、もう根負けというか断念
をしました。

もう Cog Studio だけで充分です。

Cog Studio は動画生成処理開始時点で、終了までにかかる時間が
分かります。これは他からの大量リクエストで待ち行列幅が変化する
KlingAI や LUMA AI のDreamMACHINE などのクラウド系動画生成
サービスでは望めません。(Cog Studio 起動直後の動画化ではこの
表示はありませんが、次の画を動画生成させるために refresh ボタン
を押して次の動画生成に入ると、この表示が出ます。初回の動画化
から類推するのでしょうかね。)

Cog Studio が2000 秒(33 分)弱で確実に動画生成出来る一方、
KlingAI は、もう今はほとんど結果が戻って来ません。
何日か待ってエラー終了でお詫びのクレジット戻りが積み上がる
ばかりです。

LUMA AI の DreamMACHINE は 一時期よりは無償ユーザ虐めの
「IN QUEWE」待ちが緩和されて、2 時間から半日で戻って来る
ものの、折角の FLUX.1 での美しく緻密なサイバー女子隊員画が
動画化で恐ろしい形相に変わって行くのを見るにつけ、もう
Cog Studio + Dain-APP だけに集中して KlingAI と LUMA AI の
DreamMACHINE も、もう要らないんじゃないか、という心境に
至りました。

まあ KlingAI と LUMA AI の DreamMACHINE にも動画生成リクエスト
は投げておくものの、Cog Studio との 3 者の成果が揃うまで比較の
機会を待つのはやめて、それぞれ非同期に面白い結果が出たら記事に
する、動画化はもう「地味だが確実」の Cog Studio + Dain-APP で
充分だ、と以降は考えることにしました。


以下は予定していた動画比較のために FLUX.1 で描画させた原画
から Cog Studio で動画生成したものです。
中には Dain-APP でフレーム補完させたほうが良いものもあり
ますが、Cog Studio の能力を提示する目的で、今回はいずれも
未処理状態での公開です。(そもそも先日の記事の通り、note
記事に貼り付けるために GIF 化した状態では、あまり差が分かり
ません。)

動画生成時にプロンプトを与えないと、Cog Studio の動画生成AI に
「何も言わないが原画から描かれた対象の識別と、人間側の意図を
把握してうまく動かせ」と言っているようなもので、全く動かない
動画が生成される場合も当然ありました。
画像だけの情報で動画生成AI が知識ベースと照合するより、補足の
文字情報があるほうが照合は容易となる訳です。

なので与えるプロンプトは原画生成時の複雑なものでなくとも、
原画を見て人間が言葉で簡単に補足するレベルで良いと考えます。

動画生成時に「rotating space station」を添えました。
添える前は回りませんでした。

同じく動画生成時に「rotating space station」を添えました。

動画生成時に「volcano explosion」を添えました。
激しすぎて長秒化(半速化)したほうが良さそうです。

動画生成時に「cloud sea and black hole」を添えました。
(科学的にどうなのか?という妙なこだわりより直観感覚で手短かに
伝えることが重要です。)

動画生成時に「Landscape walking on another planet」を添えました。
「walking」が余計だったかなとも今は思います。

動画生成時に「Landscape on another planet」を添えました。

同じく動画生成時に「Landscape on another planet」を添えましたら
全く動かない動画が出ましたので、さらに「Swirling light」(渦巻く光)
を追加しました。渦巻いてませんが少し動きは出ました。

同じく動画生成時に「Landscape on another planet, Swirling light」を
添えました。

上掲の LUMA AI の DreamMACHINE の 2 動画めと同じ原画による
ものです。「最低限の動きの肖像動画で必要充分」が意図ですので、
プロンプトをあえて与えていません。
そして原画(この note 記事のタイトル画)のノーブルな雰囲気が
充分に活きた、意図通りの動画になりました。

表情と上半身の筋肉の連動など、解剖学的な知見も正しく踏まえた
動画生成になっています。
FLUX.1 描画によるリアル感も最大限活きています。

そうです。リアルな FLUX.1 による人物画に「命を吹き込む」ことが、
ここでの動画化の目的なのでした。余計なアクションや演出は不要
という訳です。

本来そうある筈なのでした。原画が SD1.5 から飛躍的に写実感を
向上させたのに、LUMA AI の DreamMACHINE のようにそれを丸めて
しまって実感出来ない動画化というものが、果たしてこれからも
使う価値があるのか、という疑問が大きくなって見切りを考えた、
ということも否めません。

これらも全てプロンプトなしです。

後ろのサイバー男子隊員の動きが余計….(^^)。

ほとんど動きませんが、本記事末尾をご参照ください。

この原画からの動画化は、全く静止したまま動かないものが出力された
ので、プロンプト(「Strength」= 0.8)に「Smiling, she senses
something unusual around her and gets ready to fight.(微笑む彼女は
周囲の異変を察知して戦う態勢になる)」を添えて再処理させましたら
こんな動きが出ました。「異変を察知して戦う態勢」というより何か
虫でも飛んで来て慌てた感じですか…。上げた腕の質感が手編みセーター
みたいで少し変です。でもとにかく動きを与えることは出来ました。

遥か未来の異星開拓現場に居る彼女と時空を超えて、この画像を
通して相対しているかのような(スクリーンでアイコンタクトを
しているレベルで)感情が沸き起こるほどの「リアル」がここに
あります。(おいおい大丈夫かよ耄碌ジジイ)

この口角が上がって頬骨の前の筋肉が前に出る表情筋の動きも
解剖学的知見を踏まえた正しい動画化です。

しかしサイバー女子隊員動画に関しては、時折異様な「やらかし」も
発生しました。「Strength」項の値は大きいと変化量が大きくなるのか
その逆なのかも、今はよく分かっていませんが、「やらかし」が発生
した際には、その値を「0.8」から「0.6」に動かしたりすると解消する
ようで当面はそれで乗り切る一方で、メカ画や宇宙画ではそれが全く
発生しないのも逆に不可解です。
 
「Strength」=「0.6」での動画です。
後半にワンシーンが挿入されます。GIF はリピート再生するので途中に
シーンが挿入されたように見えます。回想シーンにしても異様です。

「Strength」=「0.8」での動画です。

逆にこちらは「Strength」=「0.8」での動画です。
動画生成 AI の中でどのような物語が想起されたのでしょう…(@_@;;)。

「Strength」=「0.6」で落ち着きました。逆に怖いかも…。

上掲の動画の中でほとんど動かなかったものがありましたが、実は苦労
して何度も動画生成させて、ようやく 6 秒やらかし無しの動画を生成
させたものでした。いずれもプロンプト無しでしたが、やらかしが
発生するのは、発生しないものと何が異なるのでしょうか…。

2 例ほど併載しておきます。

正味のところ、KlingAI や LUMA AI のDreamMACHINE のやらかしまで
気にしているゆとりも無いです。
Cog Studio を手なづけるだけで今はもう手一杯です(^^)。


ご覧いただきありがとうございます。



(2024/09/26 執筆)


いいなと思ったら応援しよう!

この記事が参加している募集