見出し画像

「Stable Diffusion」の呪文(16) SDXLを試して見た

SDXLとは

 SDXLは、Stable Diffusionを作ったStability.AIの新しいモデルである。このモデルは従来の512x512ではなく、1024x1024の画像を元に学習を行い、低い解像度の画像を学習データとして使っていない。つまり従来より綺麗な絵が出力される可能性が高い。そしてStable Diffusion 2.0からnsfwを弾いているのでnsfw画像は壊滅。nsfw愛好者はリファインモデルを待つしか無かろう。ただし解像度が大きくなった分、従来よりもGPUのメモリが必要になる。最低が8GBらしい。再学習は24GB無いと厳しそう。

 しかしSDXLは、従来のStable Diffusionと排出される絵が大きく変わっているので従来のプロンプトがそのまま使えない可能性が高い。Automatic1111は取りあえずSDXLに対応しているので、モデルを差し替えればそのまま使える。ただし基準が512x512ではなく1024x1024に変わっているのでサイズを変える必要がある。7月27日に1.0がリリースされたのでテストしてみようと思う。

※ ここで生成している画像はAutomatic1111経由なので、この評価はAutomatic1111のバグに起因している可能性もある。

今回使うのは以下だけ。

 Automatic1111 Stable Diffusion Web UI 1.5以上の場合、Stable-Diffusionのディレクトリに、モデルをコピーして選択すれば使える

SDXLのメリット

hires.fixの出番が少なくなる

 従来、低解像度で作成した画像をhires.fixで拡大して居たわけだが、2倍程度なら不要になるためhires.fixは取りあえず不要になる。ただしFull HD以上の画像を作る場合は必要だと思われるがAutomatic1111は完全に対応していないらしい。その目的にはSDXLはbase modelではなくrefile modelを適用を推奨しているため。

速度が速い

 従来のhires.fixを使ったやり方に比べると速度は早くなる。そのまま出力しても若干軽い。Sampling Stepを小さくしてもいける。

雑なプロンプトでもそこそこ出来る

 イラスト系は割と雑でもクォリティは出る(ばらつきが激しいのでチューニングは必要だと思われる) 

SDXLのデメリット

低解像度に弱い

 低解像度に弱くなっている。高解像度の画像を作成し縮小する必要がある(Automatic1111の問題かも)

512x512 と1024x1024の比較

 512x512が使い物にならない。最低サイズが大きくなる分メモリも必要になる。

メモリを沢山消費する

 現状GPU 8GBが動作下限だと思われる。家の環境だと12GBギリギリに到達している。

モデルのロードに時間がかかる

 モデルサイズをチューニングしたモデルがまだ出回っていないのでロードにかなり時間がかかる

プロンプトの試行錯誤をやり直す必要がある

 出力傾向が一部変わっているのでプロンプトを作り直す必要がある。8kといった従来のクォリティワードはむしろ足を引っ張る様である。

以前のテスト用プロンプトでは大きく変わらなかった

画風の傾向は全面的に見直し

 恐らくかなり変わっている。テストプロンプトには、fantasy, 8k,Highly detailed,Degital Painting, concept art,sharp focusと言うクォリティプロンプトを追加していたがこのプロンプトが干渉するため画風のプロンプトが効きにくい。

Hiroshige Utagawaは一部だけ効いている感じ
Hokusaiが効いていない(以前は効きすぎていた)

画風の調節方法が変わる

by Ukiyoe style (クォリティプロンプトは削除)
by Hokusai(クォリティプロンプトは削除)

 ただし、アニメ風画調などはultra-detailedなどが必要になることがあり、当面パラメータの試行錯誤が必要。プロンプトはその分短くなりそう。

 この辺りの検証は時間があったらやるが、H.Rギーガーはよく効いて、モノクロになる。ダビンチを指定してもモナリザにならない。

  • by photograph リアルより

  • by watercolor painting 水彩画

  • by digital illustration ディ○ニーっぽくなる気がする

  • by anime screen cap アニメより

※ 相変わらずエルフは駄目だ。

チューニングモデルが少ない

 モデルを作る敷居も高くなっているので時間がかかりそう。civitai.comでは現在募集中らしい。

余り変わっていない部分

文字やロゴに弱い

 この領域はDall・Eの方が強い。Microsoft Edgeからイメージクリエーターを起ち上げれば実質無料でDall・Eが使える。プロンプトを解釈する部分の差だろう。

指、手、足が崩れる

 相変わらず。この辺りはアルゴリズムの問題なのでアルゴリズム自体に手を入れないと根本的な改善は無理だろう。

この記事が気に入ったらサポートをしてみませんか?