ローカル t2v 生成、HunyuanVideo をもう少し使い込んでみる。【評価激変。なんかもの凄いゾ！】

2025年2月25日 08:37

ローカル動画生成ツールといえど、 t2v（Text to Video）なので、それほど
は使わないだろう、生成の都度に人物像などは変わってしまうだろうから、
と環境構築後、そのままにしていましたが、その後も 384p 版の
pyramidflow-miniflux の出来がいまいちだったり、LTXV i2v Lightricks
（LTX-Video）の導入に壁があったりしたことから、表現内容が冴え
なかったものの動画生成自体は当方のローカル PC 下で動く唯一の768 p
可能、24 fps 出力でなおかつ素直で自然だった HunyuanVideo をもう少し
使い込んでみようかと 2025/01/09（木）に考えました。

まず CheckPoint ファイルが異なるのですから当然ですが、LoRA F1 の
効きが静止画描画の FLUX1 on Stable Diffusion Web UI Forge よりかなり
浅い感じがしましたので、その最適値を探ります。

出力結果を見て、当方が最も「ああこんな風合いならもういいか」と思った
ポイントでした。改善があるなら使い甲斐が出て来る訳です。
例えば、FLUX.1 on Stable Diffusion Web UI Forge での原画生成を経由
せず直接意図に沿った動画を得る、とか。

プロンプトは以下の通り、いつもの内容を平文化したものです。

outdoor, medium shot, wearing gray and black nano-suits, wide hip, large breasts, perfect slender young girl body, perfectly glossy skin ,25 yo mature girl, picture of a vivid, masterpiece, ,perfect lighting, asian beauty, Machine background ,spaceship outdoors background, Mecha Transport parts, dark and foggy environment, heavy fog environment, battlefield behind,

LoRA F1 の効きを 2.0 にしました。（前回は 1.4）

そもそも CheckPoint ファイルの属性は何なのかも分かっていません。
FLUX.1 系でなければ効きもあったものではないですね。
果たしてどうなるでしょう….。

うおっ！　ｷﾀ━━━━(ﾟ∀ﾟ)━━━━!!
（これ、環境依存文字ですって。これで一文字？）

このサイトで GIF 変換したものを貼り付けます。
（webp から GIF への変換での画質劣化が残念ではありますが、致し方
無いです。）

処理に 62 分かかりました。
（Ryzen7 RAM 16 GB / RTX4060 GPU VRAM 8 GB）
LoRA F1 の効き変更だけならもっと速く終わるでしょう。

見てくれの差だけでそんなに前回と反応が違うんかい？って、そりゃあ
そうでしょう。原画生成も動画生成も「表現」という「見てくれの出来」
のために日々七転八倒を繰り返しているのです。

GPU VRAM 8 GB で動くからくりは、最初から CPU と RAM へのスワップが
オプション設定なしに仕様として含まれているからなのでしょうか。

構図上やや横幅を余し気味ですが、それはここで調整が出来そうです。
解像度が合わずで画質が落ちるとか、エラーが出るのを恐れてその調整は
もう少し後にします。
動画の長さもここで行う？メモリ不足エラーに直結なので慎重にします。

出力は webp ではなく、MP4 や GIF にしたかったですが、何とズバリ
「アニメーションWEBP を保存」とのノード名でこのままでは変更が
効きませんでした。「Add Node」で適切なノード追加とか出来る
のでしょうか…。

効きを 2.5 にしました。44 分で処理終了しました。
背景の「spaceship outdoors background, Mecha Transport parts, dark and foggy environment, heavy fog environment, battlefield behind,」の質感と
のバランスに痺れます。
ローカル PC での動画生成では頭抜けて最高の水準を実現していると
言い切れます。（改めて i2v へのエンハンスを強く渇望します。）

うおお….っとっと…。
深い沼に墜落ほどの勢いが、これはちょっといまいちか…。
LoRA F1 の効き変更はしませんでしたが、おおよそ 44 分での処理完了
でした。

むむむ…。さらにこれはどうなの？
LoRA F1 が本当に効いているのか….。

（要はこの爺、この顔が嫌いってことですよね。はい。そうです^^。
当方、ディズニーのポカホンタスみたいな「東洋の女は、はいこれ」
みたいな西洋人の上から目線のテンプレート表現を心底忌み嫌います。
「お前ら鷲から進化した西洋人には分からんのだろう【当方、一応旧帝大
卒の理学士です。「生命の起源」に関しての未知の探究を当時のバイオ
ケミストリー分野の黎明期に従事しました。卒論は共同執筆の形で英誌
「Nature」にも登録されています。なのでまあ冗談はさておき真意を
汲み取って頂ければ。】」という創作者としての意思表示でもあります。）

すみません…。この動画に「これってアタシそっくりだ」と思われた方が
いらっしゃったら、見も知らぬその方を墜とそうという意図はありません。
（当方に「鏡を見てみろ。老いで衰えた今の醜いおまえを客観視出来てる
か。」と言われれば「はいそうです（全面白旗降伏）」というしかあり
ません。いやいや論じるのは創作論であって、そういう問題ではないの
ですけれど….。^^）

生成される動画が期待以上にに写実的だと、こういう言及の必要にも
至る訳です。そのことをまだしっかり受け止めきれない自身が居ます。
恐れ多くもあえて言えば、CivitAI を含めネット上の多くの AI 動画で
これほどの写実を拝見するのは正直稀なことです。「頬骨やエラが
張った西洋人のお決まりなキメ顔キメポーズの"リアル"」に「種族保存
本能レベルで魅力を全く感じない」当方にとっては尚更。

さらにもう三投。

LoRA F1 の効きを 3.0 に上げました。

プロンプトに「smlies,」を加えました。髪がいつの間にかロングに。

LoRA F1 が効いているのかを確認するには、明らかな特質の修飾をする
ものを更に加えれば明白でしょう。それはやはり腹筋バッキバキの
BLUE_mk4_angel_FLUX_01.safetensors でしょう。
少し縦横比を変える必要がありそうです。腹部が画面に入ってませんし
(^^)。

それはまた別記事で纏めます。

効率を考えると是非は二分しますが他題材での生成も含めて評価の上、
「FLUX.1 on Stable Diffusion Web UI Forge での原画生成を経由せず
直接意図に沿った動画を得る」も「夢のまた夢」ではないかも、です。

NSFW 的な表現にもストレートに動画生成する、という例を CivitAI でも
多く見かけますが、そちらは興味を持ちません。
「そんなことをしても現世において何も始まらんよ」とは思います。
（そんなものは所詮「中坊」レベルのお愉しみであり、当方は老人です。）
ただ「それが可能ならどんな SF シーンでの格闘場面など対人からみも
描けるだろうな？」という期待は大いにあります。
（その意味では当方、少年です。^^）

ご覧いただきありがとうございます。

（2025/01/09 -10 執筆）

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

49,077件