見出し画像

HunyuanVideoのLoraモデルマージの効果の検証的なもの@ComfyUI

HunyuanvideoのモデルにLoraのマージしてみる@ComfyUI|shiba*2

以前の記事の内容をもとに作成した、自分なりにマージしてみたモデルが実際にどれぐらい効果がありそうなのかを実例で提示してみたいと思います。

ちなみに「HunCusVid」を作成された方は、コメントで、マージしたモデルを公開されています。
見てみると「叡智系」のものを相当入れ込んでいることが分かります。

このリストがかなり続く

Loraをマージされた方は分かると思いますが、出力する画像が大きく変わるものとそうでないものがあります。

ということで、基本的には「叡智系」が強化されたモデルが出来上がる確率が高くなるということが分かります。

私は「叡智系」は最小限に、動き系と、東洋系の人物モデルのLoraを8-10個程度マージしてみました。

<検証方法>
追加のLoraなし、解像度、シード値、サンプラー、スケジューラーなどの設定は同じものです。
※HunyuanVideoのモデルは、シード値によってかなり出力が変わりますので参考程度もしくは、傾向を見る感じで。

デフォルトのfp8モデルと、Loraをマージしてみたモデルを比べてみました。

左側がデフォルトのfp8モデル、右側がLoraをマージしたモデルです。

プロンプトは長いので省きますが、以前のものを流用しているものが多いです。

ということで、動きの崩れは少なめになりました。
重要な点としては、最後の動画で動きの頻度が上がっているところでしょうか。これもマージしていたら出来ていました。

参考までに使用したプロンプトを2つ出しておきます。(※前半のは過去記事のものを流用)

<途中の男性のシルエットのプロンプト>
A lone man stands in an endless black void, striking a dramatic pose as if he’s about to unleash an epic attack. He closes his eyes, takes a deep breath… and then starts shaking his hips wildly.
Each exaggerated thrust sends out goofy, cartoonish shockwaves, making the space around him wobble like gelatin. Bright neon-blue energy ripples out, but instead of looking intimidating, it’s oddly bouncy—like a wacky sound effect should follow every move. His expression shifts between extreme focus and sudden confusion as if even he doesn’t understand why his hips are causing such chaos.
As he picks up speed, cracks form in the void, revealing absurd alternate dimensions: a world made entirely of dancing ducks, a realm where everything is made of rubber, and even a floating slice of pizza giving him a thumbs-up. His movements become ridiculously fast, turning him into a blurry whirlwind of pure hip energy.
Then, with one final over-the-top thrust, a massive explosion of rainbow-colored light bursts outward. Reality itself seems to short-circuit, glitching into pixelated chaos before snapping back into place. Silence. He blinks, looking around, unsure of what just happened. The camera zooms in as he awkwardly shrugs at the audience.
The animation features exaggerated, slapstick anime effects—complete with speed lines, silly impact effects, and comedic timing. The soundtrack is a mix of dramatic orchestral buildup that suddenly shifts into a ridiculous honky-tonk or kazoo tune, enhancing the absurdity of the moment.

<最後のプロンプト>
A cheerful Japanese woman with a vibrant, bubbly personality stands in a futuristic neon-lit cityscape. She adjusts her hair, gives a playful wink to the camera, and then starts dancing energetically, moving her hips in a rhythmic, upbeat motion.
Each hip movement sends out glowing waves of pink, blue, and gold energy, illuminating the space around her like a dazzling light show. Her dance is fluid and joyful, seamlessly blending J-pop idol moves with exaggerated anime-style effects. As she twirls and spins, the energy around her forms bright, sparkling patterns, shaping into floating hearts, stars, and rhythmic pulse waves.
The world around her reacts to her movement—streetlights flicker in sync with her beat, holographic billboards start dancing with her, and even the sky pulses with vibrant colors. As she reaches the climax of her routine, she leaps into the air, spinning gracefully as a massive burst of golden light erupts from her. The scene slows momentarily, capturing her midair in a breathtaking pose before she lands with a radiant smile, striking a confident final pose.
The animation is highly stylized with smooth, energetic motion, bright pastel color schemes, and a fun, dynamic camera that follows her movements closely. The soundtrack is a high-energy J-pop track with bouncy beats and electronic synths, perfectly syncing with her vibrant dance moves.

She has big breasts beautiful face. her skin is white with detailed skin textures.

<img2vidでの比較>
一応、img2vidではどうなるかも見ています。

サムネの写真
デフォルト
マージモデル

下記のimg2vidのフローを使用して試してみると、マージモデルの方はとりあえず人物が変わりました。動きは多めになったりしています。ただ、シード値は変えていますので、正確な違いを見ているわけではありません。

HunyuanVideoのimg2vidを改良!?別なフローの紹介@ComfyUI|shiba*2

<まとめ>
①Loraをマージすることで、動きの崩れを少なくすることは可能
②Loraをマージすることで、動きを早くすることも可能
③マージするLoraモデルによって、方向性を調整できそう。
④img2vidなど元のモデルの特性で設定したパラメータは修正する必要がある

シード値による生成結果のブレの大きさは、今後のLoraや追加学習によって改善していくのではと期待されます。
IP-Adapterとかあると、img2vidに近い形で、txt2vidを行えるようになりそうな印象ではあります。

いいなと思ったら応援しよう!