見出し画像

Cog Studio の暴走を止める。【改めて設定をチューニング】

本記事は末尾の執筆日付の通り、時系列記事公開に割り込んだこの
記事より以前に執筆完了して公開順列待ちになっていたものです。


その割り込み記事中には、やむなく CogStudio の環境をゼロから
再構築した経緯を記してあります。
そのためか現在の当方の環境では、ややこの記事で纏めた最適値の
決め打ちにズレが生じている傾向もあります。おおよそのところは
下記のそれぞれの設定が目安とはなりますが、暴走を抑えるのに
下記の効きの度合いを強める(AI 側の裁量を抑え動きも少なくする)
ことが必要なケースも出て来ています。

(以下は公開を待機していた元原稿)


最近、Runway の原画を超える超解像かつ物凄い補完描画力あっての
ドローン接近演出などで「動画化はここまで出来るのか」という
驚きに触れたためだけでなく、折角のローカル動画生成、
Cog Studio の挙動に残念感が出て来て居ます。

表現の差という次元では元々「Leonardo.Ai 並み」と評していた通り
「地味ながら確実」ならそれはそれで道具として役に立つのです。

しかしやたら暴走する例が目立って来ました。結果、何度もパラメタ
を調整してまた 2000 秒弱の動画生成を繰り返しています。

C ドライブの残量に現状は問題ありません。
起動時に時折 Update を叩いてみるものの、UI の外観を含め結果に
特に変化はありません。

この記事の題名まで言い切れたほどの満足度はどこに行ってしまった
のか….。

メカ強化された nano-suits がアイドルの衣装と解釈されたのか、やたら
アイドルダンスみたいな暴走の上、使い物にならない動画が続発します。
「地味ながら確実」の真逆で存在価値なし….。

HailuoAI のようにしゃべりまくりのあげく顔変形を起こす動画も
あります。(HailuoAI はしゃべりまくりますが、それで顔が変形
したりはしません。品はないですが。)

これはどうか….。最後でぶっ壊れでした。

一体どうしてしまったのだろう…。
いつの間にか実用域で使える環境ではなくなっているのか。
与える原画のオブジェクトが複雑過ぎるのか。

…いやいやそもそも一番最初の動画化などもっと気味悪いラスト
だったじゃないか、それでもあれほど喜んで編集で使う抜け道を
考えたりしてたではないか、と思い直して、パラメタの最適化を
探りました。

冒頭 URL の記事での満足度の高い数多くの動画群をみれば、その
最適化というか勘所はその時点である程度把握していたから、
それだけの数の動画を提示出来た筈でした。手探りの次元で法則性
を気づくまでには至ってなかったのかもしれませんが。
(うまく行った設定のまま、動画を量産しただけで終わったとか。)

今、そのノウハウや調整過程が頭や記録に残っていません。
その上「前はとても良かったのに何故か今は悪くなった」と思い込んで
いることに気付かなかった自身の異常に、逆に愕然とします。(耄碌)

3 者比較の前にまず Cog Studio のチューニングをして、それをノウハウ
として記事に残しておくべきでした。そうでないと Cog Studio はベスト
の状態で 3 者比較に臨めません。

遅まきながら今回はそれをやってみます。

まずは元々それほどまでに満足していた原画を再び使って動画生成
しました。設定をいじらずに満足出来ればそれに越したことはない
ので、先にそれを試してみてダメなら調整をするという流れです。

やはり暴走気味で落ち着きません。手が何本あるのか….。
以前の質に戻れないのではないかという疑心暗鬼の中、パラメタの
調整をしました。

どうにか戻れそうでしょうか…。
最後のほうの「くーっ…。」って感じのウケ笑いが愛らしいです。

まあその長時間にわたるグダグダの行ったり戻ったりの過程は割愛
して結論を纏めます。

「Guidance Scale」を上げると暴走は止まるようです。
本来はプロンプトへの追従度を示すパラメタですが、プロンプトの
明示がなくとも、AI 側の裁量度が抑えられるのかと解釈しています。
(省略値は「6」。そこを中心にAI に許容する裁量度を題材ごと
に考えます。)

「Strength」はその裁量度の中で、動きをどれだけ出すか抑えるか
という指標だと考えますと、成果との解釈に符合します。
(省略値は「0.8」)

対象によって最適値は異なります。まずは省略値で処理してみて
ダメだった場合には以下をそれぞれ目安とします。

サイバー女子隊員画(人物画)では「Guidance Scale」が「10」、
「Strength」が「0.6」、それで暴れるようなら「0.4」か「0.2」
を順に試すと、期待する「地味ながら確実」が得られます。

以下、同じ設定です。
そういえばこの原画からの動画生成も、謎のやらかし暴走していたでは
ないですか。暴走は今に始まったことではなかったのでした。

この設定で問題無さそうです。

これも。「Strength」が「0.6」でややふらつきがあったので「0.4」
に下げました)

この設定で冒頭の失敗例をリベンジしました。落ち着きました。

これは「Strength」が「0.8」で最も変形と動きがバランスしました。

これは「Strength」が「0.6」で一発 OK でした。
原画では分からなかった、メカ度の上がった nano-suits の柔軟性や
質感が、その細かい動きでの伸縮から伝わるようになりました。
静止画での金属装甲の印象から柔らかいウレタンフォームのような
印象に変わりました。ウエットスーツ素材といいますか…。

これは「Strength」が「0.8」のほうが生気がありました。

他の作例はまた(上掲も含めて)3 者比較で掲載します。
とにかく暴走を抑え、彼女たちの息遣いが「地味ながら確実」に
動画化されたことには、大いに安堵を得ました。

メカ画(宇宙ステーション画)は「Guidance Scale」は大きく
AI 側に裁量を与えて「4」、「Strength」が「0.8」、それでも
回らない場合は prompt 欄に「rotating space station」を添えると
100% 満足の出来になります。
サイバー女子隊員画(人物画)の最適値では画は全く動きません。

メカ画(異星開拓基地画)が最も苦手な題材のようで、動きがなかなか
出ません。プロンプトを与えるにも「planet base」では動きそうな内容
ではありません。
「Guidance Scale」が「4」から「2」、「Strength」が「0.8」や「0.9」
で動けば御の字といった感じです。

これはかろうじて動いてくれましたが、3 回の動画生成のうちの 1 度切り
でした。

動きはあっても期待したものではありません。2 回とも全く同じだった
ので、何か Cog Studio なりの確固たる解釈があるのでしょう。

これは「Guidance Scale」が「2」、「Strength」が「0.9」で
動きました。同じ設定で初回は動かずの 2 回目です。
「地味ながら確実」以上に必要充分です。
その差は何なのでしょう。

これは同じ設定でも、明度が僅かに変化するだけでした。

やり直しましたが、ランプの明滅があるだけましでしょうか。

カメラワークに動きを持たせたいので、プロンプトに「planet base ,
the screen moves and goes」を添えてみました。

いやいやそういうことではなくて…。

「Perspectives move and go」に変えました。
それに従わせるために「Guidance Scale」を「10」に設定しました。

「move and go」で地震なのか。結局ダメでした…(降参白旗)。

これが成功したら、先に実施していた以下の動画にもリベンジの
必要性が出て来たところ、不要となりました。
良いのだか悪いのだか….。それにしても動きが出る原画とそうでない
原画の差が今も分かっていません。

「原画をどう理解するか」の容易性でいえば、続くメカ画(幻想画)の
ほうがよほどレベルが高い筈で「解釈・理解が出来ず動かしようがない」
という納得・理解も無理がありそうです。

メカ画(幻想画)は「Guidance Scale」がサイバー女子隊員画と同じく
「10」、「Strength」が「0.8」あたりでまず試して変化の大小に
あわせて「Strength」を「0.6」や「0.4」にして様子をみます。

「Strength」が「0.8」ではやや余計な動きでした。

「Strength」が「0.6」では動きが地味過ぎです。
側道を歩く人以外は動いてません。建物内の明滅はありますが。

「Strength」が「0.6」で意図通りの動画になりましたが…。

大暴走しなければ、顔の表情などがないので暴走しても価値無しに
ならないケースもあると考えて、省略値のまま(「Guidance Scale」
が「6」、「Strength」が「0.8」)動画生成させて意図以上の動画を
得ることもあります。

これなどサイバー女子隊員画(人物画)では破綻していたでしょう。
顔が吹き飛んでいたかもしれません。

原画の時点で最初の氷の柱のようなものが生成される過程がこんな一瞬の
相変化(過冷却みたいな)のようなものなのかな、と感じていましたが、
動画生成でそれを再現できるとは期待もしていませんでした。
なので動画生成時の予定調和な安易な期待を超えて、原画のポテンシャル
を動画生成してくれた感があります。声をあげて驚きました。

これも省略値のままの動画生成です。手前ほど早く動き、遠方の動きは
緩慢で、正しいカメラワークです。
(陸上競技中継のように、カメラがレールに乗って高速で動く表現)
このようなカメラワークを異星開拓基地画で発揮して貰いたいのでしたが。
その原画の差は一体何なのでしょう…。

上掲の通り、明らかに苦手な分野はあるものの、改めて Cog Studio の
不可解な暴走を抑えることが出来、かつてのように「Cog Studio だけ
で充分」と言えるほどの動画生成ツールとして復活安定したことに
大いに安堵しました。

出力画像の大きさの制約は、自環境の乏しさから来るもので、ハイエンド
環境では「Super-Resolution(720 × 480 → 2880 × 1920)」の
オプションだって、Cog Studio にはあるのです。
そういえば初期にはあった「8fps → 16fps 」オプションが無くなってます。

当方はその必要があるなら、Dain-APP を使って解像度とコマ数 / 秒を
向上出来ますが、そこまでの必要を note や CivitAI での公開には感じて
いません。常用しないまでも手段がある、というのが重要です。

KlingAI や Runway などのクラウド系の動画生成サービスでは、このような
細かいチューニングはオートマティックで AI が調整してくれますが、
Cog Studio は現時点ではその一手間が必要です。(その AI 調整で
希望する動きになるかどうかはまた大いに別問題ですが。)
しかしその調整の手間を踏まえればクラウド系動画生成サービスに比肩
する動画を「無課金、回数無制限、表現無制約」にローカル PC で生成
出来るのでした。その意義はやはりとても大きいと考えます。


ご覧いただきありがとうございます。



(2024/11/09 執筆・冒頭段落 2024/11/26 加筆)


いいなと思ったら応援しよう!

この記事が参加している募集