見出し画像

Tiled Diffusion+ControlNet Tileでの高画質化i2iにおける、各設定値の効果比較

はじめに

tile+i2iでの高画質化についてのおすすめ設定はそこそこ見かけますが
その設定に至るまでの比較検証画像があまりないので、まとめてみました。
基本的に自分で決めたい方向けです。

Tiled DiffusionやControlNetの導入については既に丁寧な記事が検索すると出てくる状況ですので、割愛させていただきます。
また、MultiDiffusionやMixture of Diffuersの論文等に目を通し切れていないので、解釈には誤りがある可能性があります。あくまで設定値の検証用として読んでください。。

📕結論

長いので設定値だけ知りたい人向けの結論です。
AIイラストのノウハウ全般に言える話ですが、
効果はモデルによる」「良し悪しは主観
なので、ご自分の環境に合わせて調整してください。

i2i設定

promptは生成時のものを入れっぱなしです。

  • Step:使用するSampling methodの適正収束値

  • CFG Scale:7付近

  • Denoising strength:0.5付近

i2iタブ設定値

Tiled Diffusion設定

  • Method:Mixture of Diffusers

  • Latent tile width/height:96

  • Latent tile overlap:32

  • batch size:VRAMとご相談

  • Noise Inversion:OFF

    • アニメ塗りを強調する場合はONでもよい

    • その場合の設定は初期値

TiledDiffusion設定値

Tiled VAE

  • 不要

ControlNet tile

  • Preprocessor:tile_colorfix+sharp

  • Control Weight:0.6

  • Control Step Start~End:0~1

  • Variation:8

  • Sharpness:0.6

  • Control Mode:Balanced

  • Resize Mode:Crop and Resize

ControlNet Tile設定値

以上です。
ここから上記の設定にした検証結果がつらつらと書いてあります。

素材

今回アプスケする画像はこちら。かわいいですね。

かわいい

いちいちアプスケ処理を挟むのは検証時ばらつきますし、時間もかかるので事前にアプスケしたものを使用します。

Topazによるx2アプスケ(左:実行前 右:実行後)

こちらが全体です。細かいところが気になるので、これをtileで何とかしていきたいと思います。

アプスケ済み素材

これをi2iに突っ込んで検証します。

ドロップにゃ

Method+Latent tile overlap比較

MethodとLatent tile overlapで結果が大きくばらつくので、検証を進めるにあたり先に固定します。本来はすべての組み合わせでやるべきですが、流石に厳しいのでお許しください。

比較画像

下に出力結果を個別に貼りましたが、
比較しにくいので一部分を切り出してまとめました。

人の描写はあまり差はないと思います。
強いてあげればMixtureの32,64は薬指小指の爪まで描けているので優勢かな?ただ別のSeedなら描ける可能性もあるので、誤差です。

近景の比較
上段:Multidiffusion 下段:Mixture of Diffusers
左からoverlap = 32, 48, 64

本題の遠景の比較ですね。特に葉の書き込みが違うと思います。
好みの範疇ですが、陰影のくっきり具合と近い葉と遠い葉の描き分け、石塀の質感からMixtureのoverlap=32(左下)で以後の検証をします。
処理が重くなるので見送りましたがoverlap=64も良さげでした。

遠景の比較
上段:Multidiffusion 下段:Mixture of Diffusers
左からoverlap = 32, 48, 64

↓ここから個別の出力結果↓

Multidiffusion

overlap = 32
overlap = 48
overlap = 64

Mixture of Diffusers

overlap = 32 (採用)
overlap = 48
overlap = 64

よく見てる方はoverlap=32のジャケットに顔が浮き出てしまってることにkが付いているかと思いますが、のちに解消されます。
この時点でこれがデメリットと感じる方はoverlapを上げて安定性を確保したほうが良いと思われます。

Latent tile width/height

処理するタイルのサイズの指定になります。
基本的に細かいほうが書き込みが増えますが、処理が長くなり安定性が落ちる印象です。
小さいと1girlが過敏に反応して勝手に人が増えたりします。

64*64

良くも悪くも粗め
袖と右の森に1girlが出てしまっている

96*96

バランスが良いが、右の木が電柱と混ざってる
ジャケットに1girlが出てる

128*128

タイルが大きいので安定しているが、書き込みが浅め

書き込みを上げることが目的なので、こちらもジャケットの1girlを我慢して96*96採用です。

Noise Inversion

タイルのプロセスにノイズ除去を挟んでいる…のかな?
結果は分かりやすいです。
アニメ背景くらいの塗りでよいならONの方が安定して良いかもしれません。とにかく書き込みを増やしたい場合はOFF推奨です。

OFF

普通の出力

ON (Inversion Step 10)

右の葉がなど、特にぼやけている

ON (Inversion Step 5)

10よりもさらにあいまいになる

ON (Inversion Step 1)

車のランプまで消える。ここまでくるとあんまり用途はないかも

ON (Retouch 5)

レタッチなので、試行回数?用途不明です。

ON (Renoise strength 0.5)

これも書き込みが落ちる

ON (Renoise strength 2)

str.1よりも書き込みが上がると思いきやあんまり変わらない印象

ということで、目的から逸れるためOFFで進めます。
こういう塗りにしたい場合はONかつ設定初期値で良いと思います。

ControlNet Preprocessor + Weight比較

Pixel Perfect = ON, Step 0~1, 他は初期値で実施。
ここはみなさまご存じの通りという感じなので、あまり語る事はないです。お好みのPreprocessorをご利用ください。

一枚100MBのX/Yになって滅茶重かった

各Weight毎に掲載

0.25

tile_resample
tile_colorfix
tile_colorfix+sharp

0.5

tile_resample
tile_colorfix
tile_colorfix+sharp

0.75

tile_resample
tile_colorfix
tile_colorfix+sharp

1.0

tile_resample
tile_colorfix
tile_colorfix+sharp

ここは好みだと思います。
0.25はあまり書き込まれていないので、0.5以上で調整すると良いでしょう。
個人的には+sharpを使いたいので、Sharpnessという謎のスライダーを追加で検証します。

なにこれ

tile_colorfix+sharpのSharpness検証

まず、Control Weight=1のまま検証します。
アスファルトを見るとかなり差が分かりやすいです。

Sharpness=0

なめらか

Sharpness=0.1

Sharpness=0.2

Sharpness=0.3

Sharpness=0.4

Sharpness=0.5

このへんからザラザラ感を強く感じますね

Sharpness=0.6

Sharpness=0.7

アスファルトがあまり許容できないラインでザラザラしており、顔も若干ノイズが載っているためここで打ち切ります。
Weightを下げることで調整可能だと思うので、ここからWeightを下げていきます

Weight=0.7 Sharpness=0.7

顔周辺のノイズ間が良くなりましたね。右の木の質感も載っているので悪くないと思います。個人的にはアスファルトがまだ気になるのでもう一段下げます。

Weight=0.6 Sharpness=0.6

右の木の木目感が落ちましたが、アスファルトが個人的許容範囲になったので、これにします。また、Latent tileの時に発生していた、ジャケットの顔がいつの間にか取れてますね。

決定

CFG ScaleとDenoising strength

基本的に生成時から大きく変えるつもりはありませんでしたが、念のため検証しました。

200MBありました。

全て載せるとえらい数になるのでピックアップします。

CFG 7.0, Denoise str. 0.0

当然ですが、Denoseing strength=0では書き込まれません。

CFG 7.0, Denoise str. 1.0

また、tileがいかに誘導してくれていても1.0では変な書き込みが発生します。手に顔が…

CFG 3.0, Denoise str. 1.0

一応検証として。CFGが低くても1.0は無理ですね。
よって、普段通りのstr.を使う感じになります。

CFG 7.0, Denoise str. 0.4~0.8

というわけで安定択を見ます。0.6に1girlの影が見えますが、0.4はすっきり過ぎるので、やはり0.5付近が安定かなと思います。

0.4
0.6
0.8

CFG 9.0, Denoise str. 0.4~0.8

一応見ておきますが、0.6の時点でかなり怪しいですね。

0.4
0.6
0.8

CFG 5.0, Denoise str. 0.6, 0.8

こちらも念のため確認。
やはり0.8は厳しく、0.6はCFG 7.0とあまり変わらないですね。

0.6
0.8

おわり

長々書きましたが、結局の設定値は冒頭に書いた通りです。
比較画像を見て「こっちの方が良くない?」と思ったら是非変えて自分流のtile術にしてください。

また、今回はアニメ塗りのモデルでの検証をしたので、2.5D系やpastelの血が見えるモデルなどではまた違う設定がベターになると思います。
検証が醍醐味の画像生成。是非楽しくやっていきましょう。

この記事が気に入ったらサポートをしてみませんか?