見出し画像

HunyuanVideo x ベータスケジューラーの設定値検討@ComfyUI

以前、ベータスケジューラーのノードについての記事を記載しました。
今回は、HunyuanVideoでの効果について検討してみました。
前のTIPSの記事のところでも、ベータスケジューラーにすると良い場合があるみたいな記載がありましたので、実際のところについて試してみた感じです。

以前の記事でも記載していますが、改めてベータスケジューラーのノードとパラメーターの説明です。

Alpha:(α)
サンプリング過程におけるベータ分布の形状を制御します。Alpha値を増やすと、分布の前半で大きなシグマ値が適用されるようになり、逆にAlpha値を減らすと、後半に大きなシグマ値が適用されやすくなります。
<効果>
高いAlpha値は早い段階でノイズが大きく減少し、後半はより滑らかな画像生成が期待されます。低いAlpha値の場合、後半に細かいディテールがより強調される可能性があります。

Beta(β)
Alphaと同様、ベータ分布の形状を調整しますが、逆方向の影響を持ちます。Beta値を大きくすると、ステップの前半で小さなノイズが多く適用され、後半でより大きなノイズが加わるようになります。
<効果>
低いBeta値では早い段階でノイズが少なく、結果的にディテールが鮮明になることが期待できます。逆に、高いBeta値では後半にノイズが集中するため、より大胆なアーティスティック効果が生じる場合があります。

※ちなみにデフォルトの数値はαとβはそれぞれ0.6 0.6で、Kサンプラーのβスケジュールはこの数値が設定されています。

<検討準備>
①プロンプト
動画の場合の質の評価はプロンプトの影響もあるので難しいところもあります。
GPTに依頼して作成したものを一部修正していますが、結果のどれぐらい影響しているかは不明です。
今回使用したプロンプトは、胸揺れの部分は、前回記事にあったCivitaiの内容を参考に作成していますが、よくよく見ると長すぎて期待した効果が出にくいものになっていそうです。

公園で女の子がジャンプしてるのと、胸揺れがあるのかあたりをメインに表現しました。

②生成条件の統一
通常モデル(GGUF) FPS 24 生成時間は49フレーム 
サンプラー Eular 解像度 512x512 Loraなし シード値 1に固定

<検証結果:左がα、右がβの数値>

①0.4 0.4

②0.4  0.6

③0.4  0.8

④0.4  1.0

崩れのため提示できず

⑤0.5  0.5

⑥0.5  0.7

⑦0.5  0.9

⑧0.5  1.1 

崩れのため提示できず

⑨0.6  0.6 デフォルトの設定値

⑩0.6  0.8

⑪0.6  1.0

崩れのため提示できず

⑫0.7  0.7

⑬0.7  0.9

⑭0.7  11

崩れのため提示できず

⑮0.8  0.4

⑯0.8  0.6

⑰0.8  0.8

⑱0.8  1.0

⑲0.3 0.7

<検討結果>

αとβの数値を変えるだけで、生成される動画の内容が変化することがわかりました。
今回の検討だと、基本的にαとβは1以下がメインとなりました。

αの数値について
αが小さいとβの閾値が下がり、αが増えるとβの閾値が若干あがります。
αが大きいと背景がぼけやすくなります。
人物だけを見るとαは小さめの方が良いかもしれません。

βの数値について
これは低めだと動きが少なめになり、多めだと動きがダイナミックになりました。

上記結果からは、冒頭にあったαとβの効果としてはβが影響している印象と考えられます。

<課題>

vid2vidはどうなのか気になるかと思われますが、このbetasamolingschedularはデノイジングストレスを設定できないため、vid2vidは出来ない仕様に見えます。
この場合は、デノイジングストレスは1.0の設定になるため、vid2vidは成立しない感じになります。

以下の結論にたどり着くまで、紆余曲折がありましたが、既存スクリプトを修正して、denoise処理を追加するのがエラーがでない方法と思います。



いいなと思ったら応援しよう!