見出し画像

SkyReels-V1:HunyuanVideoの改良版+α:txt2vidとimg2vid版がある!

SkyReelsは、HunyuanVideoをファインチューニングしたもののようです。
このモデルは、映画やテレビのデータでトレーニングされているため、人間のキャラクターやシーンの生成に優れているとのこと。

txt2vidとimg2vidに対応しているようです。

本日ComfyUIのネイティブノードで使用が出来る様になった様です!

すでにHuggingfaceで、kijaiさんがsafetensorsモデルを公開されています。
ちなみにkijaiさんが公開されているモデルは、HunyuanVideoWrapperのワークフローでしか動かなさそう。。。。
オリジナルのノードでも動くようになっています。
しかもfp8モデルもある。

Kijai/SkyReels-V1-Hunyuan_comfy at main

img2vidのワークフローがkijaiさんのHunyuanVideoWrapperにアップロードされています。HunyuanVideoWrapperは最新版にアップグレードしておく必要があります。

仕事が早すぎますよね。

「In native workflows you'd feed the image in using "InstructPixtoPixConditioning" or similar node that adds an encoded image as extra conditioning.」

とか書いてあります。

ちなみに元のhuggingfaceサイトのモデルを見ると6つに分割されています。
Skywork/SkyReels-V1-Hunyuan-I2V at main

これをダウンロードして統合してみたのですが、「モデルの構造が違う」とかで弾かれました。。。。
素直にComfyUI用に結合されたものを使用するのが吉です。

<使用方法:img2vidモデル>
この方法は、img2vidモデルをロードして行います。txt2vidモデルだと(pixtopixの部分を使用しなければ動きます)。

Support loading and using SkyReels-V1-Hunyuan-I2V by kijai · Pull Request #6862 · comfyanonymous/ComfyUI

ここにkijaiさんがワークフローを紹介されており、それを使用するとimg2vidが出来るようになります。

理由などはよく分かりませんが、ステップは30ぐらいは必要な印象です。
時間がかかる計算になりますが、実際に元の画像から動いてくれるので良いかも知れません。

CFGの設定が必要となり、同じCFGでも安定した出力にはなりません。
4前後が元絵が安定しやすいという印象。

サムネの画像

バッティングは、txt2vidだと厳しいものでしたので、このレベルは良いものに思います。

<txt2vidモデル>同じプロンプトで行っています。

オリジナルモデルとの設定の差があるので、その部分がどうなっていくかですね。








いいなと思ったら応援しよう!