SDXL0.9は何がすごいの？まとめ&画像徹底比較

2023年7月11日 02:28

今回は、一般ではまだあまり知られていないSDXL0.9のすごさについてまとめました。

複数の方の会話をAIで掻き集め、まとめたので信憑性はかなり高いです😸

【質問】

SDXLが、HuggingやCivitaiで利用できる非常に多くのモデルよりも優れていると言えるのはなぜですか？

私はStable Diffusion（以下SD）全般が初めてなので純粋に興味があります。
SDXLには、より広範で堅牢なトレーニングモデルが付属しているだけなのでしょうか？

SDXLは他のモデルよりちょっとだけ優れているだけなのでしょうか？

具体的に教えてください。

回答集
【A氏】

SD1.5は1024x1024の画像で学習。SD1.5は512x512の画像でトレーニングされたものです。

【B氏】

Chat-GPT4がChat-GPT3.5よりはるかに優れているのと同じ理由で、より多くのトレーニングとより大きなデータセットを元にしているから。

【C氏】

SD1.5、SD 2.1、SDXLは一般的に「モデル」と考えられているが、AIのファミリーと考えた方がより正確だろう。
civitaiやHuggingFaceにあるものはすべて、本質的にはSD1.5の子孫だ。
ファインチューンやマージとは対照的に、まったく新しい系統を作ることは、ほとんどのコミュニティーの手に余る。

SDXLがユニークなのは、新しいモデルファミリーであるだけでなく、よりインテリジェンスを備えたモデルファミリーだからだ。
いい例が、数を数えることだ： SD1.5は数を数えることができない。

SDXLはニューラルネットのニューロンが多いので、数を数えることができる。また、SD1.5では当たり外れがある「背が高い」、「隣に」などの構文キーワードもSDXLは理解できるかもしれない。
これらは、SDXLモデルだけでなく、今後数ヶ月の間にコミュニティが生み出すであろう子孫のファミリーのインテリジェンスの向上が期待される、全体的な改善の具体例に過ぎない。

【D氏】

↑の答えが私にとって最も腑に落ちた。時間を割いて説明してくれてありがとう。

【E氏】

1024になるように訓練され、新しいアーキテクチャーによる最適なプロンプトに従う。

1,024x1,024で訓練された = より詳細で、1,024x1,024までの解像度では変化形に（画像が）変形する可能性が低い。

新しいCLIPモデル＝プロンプトに従うのが得意

そして、これはベースモデルであり、バランスを取ろうとしている一般的なモデルだ。ファインチューニング（微調整）をすればさらに良くなるだろう。

学習データの量だけでなく、アーキテクチャも完全に変更され、SDXLは以前のバージョンよりもはるかに汎用的になったようだ

【F氏】

SDXLはとんでもない量のVRAMを使うからだ
1024x1024にコストがかからないとでも？SDXLは前作(SD1.5, SD2.1)よりも高速であり、VRAMの効率が良いとは限らない。

詳しい技術的な説明については、SDXLのStablityAIで働いている人たちが書いたドキュメントを参照して下さい。
https://github.com/Stability-AI/generative-models/blob/main/assets/sdxl_report.pdf

【G氏】

「SDXL0.9紹介」より

SDXLはすでにSD1.5と2.1を明らかに凌駕していますが、リファイナーモデルを追加することで、パフォーマンスが向上します。
2段階のパイプラインの可視化： SDXLを使用して128×128の初期レイテントを生成。その後、特殊な高解像度リファイナーモデルを利用し、同じプロンプトを使用して、最初のステップで生成されたレイテントにSDEdit[28]を適用する。SDXLとリファイナーモデルは同じオートエンコーダを使用する。

より多くのパラメータ、他の選択肢よりもはるかに大きなスケール + 以前の小さなモデルのトレーニングの経験（ノイズオフセットなど...）を使って注意深くトレーニング。
より大きなモデル、より多くのパラメータ、より高解像度の画像でのトレーニング、より優れた言語理解。