見出し画像

SDXL先行公開モデル『chilled_rewriteXL』とSDXL解説

SDXL先行公開モデル『chilled_rewriteXL』のダウンロードリンクはメンバーシップ限定公開です。
その他、SDXLの簡単な解説や、サンプルは一般公開に致します。


1.SDXL使用環境構築について


 SDXLは一番人気のAUTOMATIC1111でもv1.5から対応しており、v1.5以降であればSD1.xのcheckpointを入れているフォルダに入れてしまえば問題なく利用可能です。

 ただし、VAEやLoRA、TIなどに互換性はないので、専用に別途構築した方がややこしさは減ると思います。

 SD1.xとSD2.xはVAEだけは互換性があった為、切替の必要がなかったのですが、SDXLはVAE設定『None』の状態で焼き込まれたVAEを使用するのがAUTOMATIC1111では基本となりますのでご注意ください。

2.SDXL使用時の基本


 ①起動時のオプションに--no-half-vaeを設定してください。

  これを行わないと、Hires.fixの完了直後にErrorが出て画像が出力されない悲しい現象が発生します。

 ②CLIP skipは1固定です。

 元々SD2からCLIPの最終層は切除されて、CLIP skip:1=SD1.xの2に相当する仕様となっている為、CLIP skipを変更する必要はありません。
 そもそもAUTOMATIC1111やそのフォーク系はSD2やSDXLではCLIP skip機能に対応していないのであまり関係ないのですが、可能な環境もあるようですので念のため、記載いたします。
 仮に有効な環境の場合、CLIP skip:2はSD1.xのCLIP skip:3に相当します。

 ③初期はbatch size:1推奨

 SD1.xではbatch size:9でHires.fixしてもLatentならVRAM12GBあれば余裕ですし、batch count増やすより早く生成が終わります。

 その一方、SDXLではHires.fixなしのbatch size:2でも最後の98%あたりから始まるVAEによる画像化処理時に高負荷となり、生成が遅くなります。
 結果的にbatch size:1 batch count:2のほうが早いというのがVRAM12GBでの体感です。Hires.fixするとこの差はもっと露骨です。
 自己のスペックに合わせて、終わり直前にVRAM使用量を確認しつつ、少しずつbatch sizeを上げて調整することをお勧めします。

 ④お勧めのHires.fix upscaler

 標準搭載だと、R-ESRGAN 4x+とRealESRGAN x4plus(恐らく同一)。外部だと4x_RealisticRescaler_100000_Gです。
 他は瞳が濁りやすいのであまり私には合いませんでした。
 4x_RealisticRescaler_100000_GはWTFPLライセンス(著作権放棄意思表示)の為、ライセンス問題を気にする必要がありません。
 LatentはDenoise Strengthを出力が変わらないギリギリにしてもボケ感が強いので非推奨。SD1.xと違ってLatentでもHires.fixはクソほど重いので、大差はないです。

 推奨:Denoise Strength:0.5~0.6
 SD1.xの時と比べて高めに設定しないとぼやけます。

 下記は全てDenoise Strength:0.5でのサンプル出力

 ⑤サンプリングステップ数

 SD1.xではsampling step:30あたりでほぼ収束し、それ以降は微妙な差での好みとなっていましたが、SDXLは30ほどで一定のクオリティになりますが、可能ならば40~60ほどに設定したほうが良い場合が多かったです。
 ただ30でも露骨に質が落ちる訳ではないので、生成時間から決めると良いかと思います。

 

 ⑥Restore faces(顔の修復)やADetailerについて

 基本的にHires.fixするなら必要ありません。
 
Restore facesはGFPGANよりCodeFormerのほうが立体感が出て、まだマシなのですが、それでものっぺりしますし、データセットが欧米人主軸なので、chilled_rewriteXLとの相性はあまり良くありません。
 
 拡張機能『ADetailer』はHires.fixなしの出力でも物凄い生成時間が増加します。その割にSDXLだとそこまで強力ではないので、少枚数で試してみてから、使用をご検討ください。
 SD1.xだともはや必須拡張機能レベルなのですが、SDXLだと重すぎるので、正直私は使わない前提で考えています。

3.基本的なプロンプトの考え方


①推奨ネガティブプロンプト

(worst quality, low quality:1.4), (deformed, distorted, disfigured:1.3), (depth of field, bokeh, blurry, blurry background:1.4), manicure,lip,


  SDXLは全身よりバストアップ以上の画像がそもそも出やすい仕様です。
 加えて今回配布する、chilled_rewriteXL_betaはマージしたモデルやLoRAの兼ね合いもあり、特にその傾向が強めです。
 その為、より引きの画像を出したいときはネガティブプロンプトに

closeup,portrait

 こちらを追加してください。
 カウボーイショットまでは出やすくなります。

 (depth of field, bokeh, blurry, blurry background:1.4),は背景をしっかり出す為のネガティブプロンプトなので、ぼかしたいときは削除してください。


 ②プロンプトの考え方

 SDXLはプロンプトの重み付けに対する反応が鈍いです。

ネガティブでも差ないのですが、プロンプト次第では影響ある可能性がある為、1.4を推奨設定にしています。SD1.xだと露骨に変わります


 AUTOMATIC1111の仕様なのかも知れませんが、かなり効きが悪い為、重み付けよりプロンプトのそのもので調整することが重要となります。

 特に語順や矛盾のある表現のプロンプトは出力に影響を及ぼします。
 SD1.xの場合はどこにどんなプロンプトを配置してもそれなりに問題なかったのですが、SDXLは適当に配置すると矛盾による影響が強いようです。
 また過剰に修飾語で盛るのも悪影響があるように感じています。
 これはそれぞれのプロンプトが持つ情報の周辺情報と結びつきが強い為と思われます。
 例えばoutdoor+swimwearなら海が選択される率が高まり、shower room指定なら自動的に髪が濡れて裸になる等です。
 また一般的なクオリティ系プロンプトはほぼ有効性がありません。

 人物は『chilled_rewriteXL_beta』においては
 beautiful japanese girl,japanese girl,beautiful japanese woman,japanese womanなどでjapaneseを入れることを推奨。
 girl、womanだけでも極東アジア顔になるよう調整していますが、クオリティがjapanese入れたほうが上がるようです。

 
 笑顔はsmileだと目元の形状が崩れて、不気味な顔になりやすい(SDXL全般)ので、archaic smile推奨。

サンプルプロンプト

a beautiful japanese girl with a toned waist and surprisingly big breasts in a blue detailed bikini type swimwear standing on the shore of a body of water

negative:(worst quality, low quality:1.4), (deformed, distorted, disfigured:1.3), (depth of field, bokeh, blurry, blurry background:1.4), manicure,lip,closeup,portrait

photorealistic, full body raw photo, beautiful japanese girl, in coffeeshop, sitting down,black long straight hair, black leather jacket

negative:(worst quality, low quality:1.4), (deformed, distorted, disfigured:1.3), (depth of field, bokeh, blurry, blurry background:1.4), manicure,lip,closeup,portrait


③胸のサイズプロンプト

 現状、large breastsはそこまで巨乳度が高くなく、huge breastsよりStunningly big breastsのほうが安定して大きい印象です。
 ただ巨乳は出せても、爆乳・魔乳級は恐らくイラストモデル由来なので、当面フォト系では難しいかも知れません。

 

4.確認されている問題に関して


 ①ビキニ姿等でHires.fixした際に複乳化が起きる場合がある件
 これはHires.fixの仕様上、タイルに分割して拡大してを行う時の不都合とLoRAやcheckpointの学習の情報の両方が重なって発生しているようです。
 現在修正可能なのか、色々確認中です。
 SD1.xの時からあった二重ヘソ現象や、イラストモデルの小人さん現象と関係性があると思われます。Hires.fixの倍率を変更するなどすれば直ることがあります。

 ②Hires.fixした際に画像が部分的に乱れる件(モヤモヤが発生する等)
 こちらは恐らくVRAM不足による問題です。batch sizeを減らしたり、倍率を下げたりしてみてください。またGPU温度が高いとノイズが発生します。
 GPUに負担が掛かっていると思ったほうがいいです。



ここから先は

747字

この記事は現在販売されていません

この記事が気に入ったらサポートをしてみませんか?