
HunyuanVideoにLoRAが大量だという話@ComfyUI
ご存知の方も多いかも知れませんが、civitaiを見るとHunyuanVideoのLoRAが多数出ていました。
ものすごい勢いで、LoRAが増えている印象です。
今はHunyuanVideo界隈が熱い!!ようです。
ちなみにCivitaiのサイトでの表示方法については、右上のフィルターの部分からLoRAとHunyuanVideoを選択すると出てきます。

叡智でないものと叡智なものがありますが、一番上は叡智なものが出ています。世界の叡智力の高さを感じますね。
Huggingfaceを探してもいくつかLoRAを見かけます。
HunyuanVideoにLoRAを使用する方法は、モデルのみで付けるフローが公開されていました。
シード値を固定して評価をしてみました。
もちろん、叡智ではないLorRAです。叡智なものはおのおの試してみてください。
LoRAを公開しているサイトで、推奨プロンプトやトリガーワードが確認できます。以下はGGUF版のLoRAを追加したものです。
試してみるLoRAは以下の2つ(適当に選択しています)
①noa (blue archive) | hunyuan video - double blocks-v | Hunyuan Video LoRA | Civitai
②Twerk Dance - v1.0 | Hunyuan Video LoRA | Civitai
プロンプト
①に人物の推奨のプロンプトがありました。
A very high quality video of noa (blue archive), A woman with long white hair, wearing a black shirt and blue buruma (shorts). She has a mechanical halo above her head and headphones around her neck. Her bare legs are visible as she wears sneakers and a track jacket.
②のトリガーワードを含む以下を追加
Tw3rk, dancing, ass shake dancing
効果があるのか? 512x512で生成。
①LoRAなし

②LoRAあり(①のみ)

③LoRAあり(①のみ:CLIPも併用してみた)

④両方をウェイト1

⑤ウェイト1.1+0.7

LoRAを加えると元の学習された画像に引っ張られるものがあります。
上のだと、②はかなり引っ張られますね。
①の効果がかなり消されています。。。
また、CLIPにつなげても同じ結果でしたので、モデルだけつなげる形がすっきりします。
その他気になりそうなこと
生成時間はどうなのか?
大きく変わりませんでした。
容量はどうなのか?
300MB程度です。
<結論>
現状のHunyuanVideoのモデルは、分野によっては十分学習できていないこともあり、希望する映像を得るにはLoRAは有効と思われます。
なんとなくの印象としてはSD1.5みたいな感じでLoRAを使用するという印象です。
もう少し時間が経つと、適切な効果があるLoRAが量産されるか、追加学習されたモデルが出たりしそうだなと感じました。