見出し画像

Hunyuan Video LoRAで、推しを学習させてみた【データセットあり】

はじめに

最近は動画生成AIもクローズド・OSSともに本格的に利用できる時代となってきて、特にimage2videoを使えば、画像生成AIで生成した画像なども動かせる時代になってきています。

ただ、image2videoだけだと、どうしても顔の一貫性を保つことには課題があるなど、限界があったのも事実です。

そこで、今回は、OSSのHunyuanを用いて、Video LoRAを実際に作ってみることで、その威力を検証してみることにしました。


Hunyuan Videoとは?

Hunyuan Videoとは、Tencent社によって公開された、オープンソースの動画生成AIモデルです。

コードは以下にあります。

また、モデルはHuggingfaceにて入手可能です。

ただ、実際のモデルは数十GBあるため、最新のLLMや画像生成AIなどのほかの多くのモデル同様、ローカル環境で実行できる方は、限られてくるかもしれません。

ライセンス

これらは、TENCENT HUNYUAN COMMUNITY LICENSEというTencentの独自ライセンスにて配布されております。

ライセンスの要点は以下のようになっています。

  1. 適用範囲と制限

    • EU、イギリス、韓国では適用されない

    • 2024年12月3日にリリース

    • 非独占的、譲渡不可、ロイヤリティフリーのライセンス

  2. 利用条件

    • 月間アクティブユーザーが1億人を超える場合、Tencentからの追加ライセンスが必要

    • 法令順守が必要

    • Territory(EU、イギリス、韓国以外の全世界)内でのみ使用可能

  3. 配布に関する要件

    • 第三者への配布時にはライセンス契約書のコピーを提供必要

    • 変更したファイルには変更した旨を明記

    • "Powered by Tencent Hunyuan"の表示を推奨

    • 著作権表示の必要性

  4. 禁止事項

    • 他のAIモデルの改善のために使用することは禁止

    • Territory外での使用禁止

    • 未成年者への危害

    • 虚偽情報の生成・拡散

    • なりすまし

    • 差別的な使用

    • 軍事目的での使用

    • 無許可での専門的サービス(金融、法律、医療など)の提供

  5. 免責事項

    • "現状、そのままの姿"で提供

    • サポート、アップデート、トレーニングの義務なし

    • 損害賠償の制限

  6. 知的財産権

    • 派生物の所有権はユーザーに帰属(ライセンス条項に従う場合)

    • 商標の使用は制限付き

    • 出力(Outputs)に対する権利はTencentは主張しない

  7. 準拠法

    • 香港特別行政区の法律が適用

    • 紛争解決は香港特別行政区の裁判所が管轄

概ねありがちなライセンスですが、準拠法が香港であり、ヨーロッパと韓国では利用不可のこと、1億人以上のMAUがある巨大コミュニティでは別ライセンスが必要なことが特筆すべき注意点だと言えるでしょう。

Hunyuan Video LoRAについて

Hunyuan Video LoRAは、画像生成AIのLoRAの動画版と言えるもので、モデル本体はいじらずに、少数のデータから、学習した要素を動画生成時に反映できる、追加パッチのような小規模なモデルです。

今回は、fal.aiのHunyuan Video LoRAの学習サービスを使用してLoRAをさくせいすることとしました。

学習対象データ

今回学習対象としたデータは、制服学習の一例として作りだした、人工彼女2.1-aというモデルで生成された、58枚のデータです。

データの上部。
データの下部。

実際のサンプルデータセットは、以下になります。

CC-BY-SA 4.0で配布します。

このような、特定の顔×特定の服装を組み合わせた画像生成AI用LoRAの作り方については、以下の記事で紹介しています。
ご興味がありましたら、参考にしていただければ幸いです。

費用・学習条件など

学習コストは5ドルで、意外なことに上記の制服学習モデルで使っているportrait trainerのデフォルトでのコストよりも安上がりです。

このかなり偏った設定であれば、制服や髪形、顔をどこまで学習できるかな、という意図もあって、敢えて偏った制服データを使用しております。

トリガーワード以外のステップ数(Steps)や学習率(Learning rate)の設定はデフォルトのままで、回してみました(先の画像に示されています)。

出来上がったLoRAモデル

出来上がったLoRAモデルは、以下となります。

https://v2.fal.media/files/6e68e7a806774a0aa2cc43e2e5bd7d5d_adapter_model.safetensors

308MBあり、LoRAとしては比較的大きなサイズだと言えるでしょう。

学習にかかる時間

学習にかかる時間は、約10分程度でした。

多少ばらつく可能性はあるものの、fal.aiの高速な実行環境では、極端に長い時間はかからないと考えられます。

結果

学習した結果を見てみます。

トリガータグだけ・デフォルト倍率

まずはトリガータグだけで、おおざっぱな設定、デフォルト倍率の場合。

人工彼女2.1 is walking on the street
結果その1。

どうやら、顔立ちはある程度取りこんでいそうで、かつ制服などの特徴は一部学習できていそうですが、明示的な指定が必要だと思われます。

原因は、恐らく学習設定においてdo captionをonにして、captionを付けたことで、トリガータグ以外の学習要素が、タグなしでは呼び出せなくなったからだと考えられます。

倍率上げ・プロンプト指定追加

そこで、倍率を1.4倍に上げつつ、プロンプトでcaptionされたものを呼び出してみます。

人工彼女2.1 is walking on the street. she is wearing a blazer uniform, with black high ponytail hair. The camera is a front shot of her, making her face visible.
結果その2。

こちらでは、髪形や顔立ち、制服の特徴はかなり捉えられているものの、制服に特徴的なリボンが抜け落ちています。

また、歩いている設定なのに、そこは無視されているようです。

実際のデモは以下からご覧になれます。

より詳細なプロンプトの場合

せっかくなので、リボンも明記してみましょう。

Beautiful 人工彼女2.1 is walking on the street. she is wearing a blazer uniform with a bow tie, with black high ponytail hair. The camera is a front shot of her, making her face visible.

その結果が以下です。

結果その3。

制服についてはかなりいい感じになったと思いますが、顔立ちが微妙に変わってしまったような印象を受けます。

これは恐らく、beautifulと付けた結果、モデル側のデフォルト美人顔につられたためだと考えられます。

追加プロンプトや倍率調整が必要、という特徴があるが、学習したデータを引き出せはする

これらのことから、Hunyuan Video LoRAは、現状では追加プロンプトや倍率調整さえすれば、学習した内容を引き出せるものだと言えます。

この特徴は、Stable Diffusionが出て間もないころ、LoRAが普及するより前に主流の学習方法の一つであった、Dreamboothの特徴を彷彿とさせます。

現代のLoRAでは、ある意味では過学習が当たり前で、それによって余計なプロンプトを指定せずとも、トリガータグだけでほぼ全ての内容を引き出せるものが多いです。

この点に関しては、今後もしかすると改善されるかもしれません。

ただ、過学習モデルは、短いプロンプトで呼び出せるという意味では使いやすくはなるが、表現の多様性が失われるデメリットもあるので、どちらが望ましいかは、ケースバイケースの可能性もあるでしょう。

生成1回の時間や費用

1回の生成には、fal.ai上で約3分半、コストとしては0.4ドルかかります。

学習はFlux-LoRAとさほど変わらないか、むしろ安価なくらいですが、動画生成になると、負荷が大きいのか、実行コストはやや高めです。

まとめと今後の展望

ここまで、Hunyuan Video LoRAを作成し、実際にそのLoRAを使って動画生成した結果までをまとめてみました。

Hunyuan VideoはTencentのOSS動画生成AIモデルであり、独自のライセンスにて配布されています。

注意点は、利用可能な地域に制限があること、1億MAUをこえる巨大コミュニティの場合、別ライセンスが必要なこと、そして香港法に準拠することの3点でした。

このモデルは、ローカルで実行するにはサイズが比較的大きいことから、今回の学習は、誰でも実行できるfal.ai環境で学習と生成を行いました。

学習用データセットには、制服×顔の組み合わせを学習させたAI生成画像58枚を使用し、実際の学習には約10分、費用は5ドルかかりました。

Captionを付けたことにより、トリガータグ単体では制服などの学習内容を補いきれず、LoRAから狙った性能を十分に引き出すためには、プロンプトによる指定や倍率の調整が必要でした。

ただ、工夫さえすれば概ね特徴をとらえた動画を実際に生成できたことから、現段階では、画像生成AIにおけるLoRAが普及する前の追加学習、Dreamboothなどに性能としては近い印象を受けました。

今後は、特別な工夫なしの短いプロンプトでそのような動画を生成できるようになる可能性もあれば、多様性を保つために、敢えてそうしない選択肢も考えられるでしょう。

いずれにしても、人物や服装を動画生成AIでも学習できるようになったことから、キャラクターの一貫性を保った動画生成をする際に、画像生成と動画生成、どちらで追加学習を行うか、選択肢が増えたことは大きいでしょう。

ケースバイケースで使い分けることで、より一貫した動画の生成が可能になると考えられ、もしかすると今年中に本格的なAI生成の長編動画も、普及していくかもしれませんね。

最後まで楽しんでいただけましたか?

よろしければ、Xのフォローと、YouTubeへのチャンネル登録もしていただければ幸いです。

いいなと思ったら応援しよう!