見出し画像

HunyuanVideoにLoRAが大量だという話@ComfyUI

ご存知の方も多いかも知れませんが、civitaiを見るとHunyuanVideoのLoRAが多数出ていました。
ものすごい勢いで、LoRAが増えている印象です。
今はHunyuanVideo界隈が熱い!!ようです。

ちなみにCivitaiのサイトでの表示方法については、右上のフィルターの部分からLoRAとHunyuanVideoを選択すると出てきます。

叡智でないものと叡智なものがありますが、一番上は叡智なものが出ています。世界の叡智力の高さを感じますね。
Huggingfaceを探してもいくつかLoRAを見かけます。

HunyuanVideoにLoRAを使用する方法は、モデルのみで付けるフローが公開されていました。

シード値を固定して評価をしてみました。

もちろん、叡智ではないLorRAです。叡智なものはおのおの試してみてください。
LoRAを公開しているサイトで、推奨プロンプトやトリガーワードが確認できます。以下はGGUF版のLoRAを追加したものです。

試してみるLoRAは以下の2つ(適当に選択しています)

noa (blue archive) | hunyuan video - double blocks-v | Hunyuan Video LoRA | Civitai

Twerk Dance - v1.0 | Hunyuan Video LoRA | Civitai

プロンプト
①に人物の推奨のプロンプトがありました。
A very high quality video of noa (blue archive), A woman with long white hair, wearing a black shirt and blue buruma (shorts). She has a mechanical halo above her head and headphones around her neck. Her bare legs are visible as she wears sneakers and a track jacket.
②のトリガーワードを含む以下を追加
Tw3rk, dancing, ass shake dancing

効果があるのか? 512x512で生成。

①LoRAなし

②LoRAあり(①のみ)

③LoRAあり(①のみ:CLIPも併用してみた)

④両方をウェイト1

⑤ウェイト1.1+0.7

LoRAを加えると元の学習された画像に引っ張られるものがあります。
上のだと、②はかなり引っ張られますね。
①の効果がかなり消されています。。。

また、CLIPにつなげても同じ結果でしたので、モデルだけつなげる形がすっきりします。

その他気になりそうなこと

生成時間はどうなのか?
大きく変わりませんでした。

容量はどうなのか?
300MB程度です。

<結論>
現状のHunyuanVideoのモデルは、分野によっては十分学習できていないこともあり、希望する映像を得るにはLoRAは有効と思われます。

なんとなくの印象としてはSD1.5みたいな感じでLoRAを使用するという印象です。
もう少し時間が経つと、適切な効果があるLoRAが量産されるか、追加学習されたモデルが出たりしそうだなと感じました。

いいなと思ったら応援しよう!