見出し画像

SDXL0.9は何がすごいの?まとめ&画像徹底比較

今回は、一般ではまだあまり知られていないSDXL0.9のすごさについてまとめました。

複数の方の会話をAIで掻き集め、まとめたので信憑性はかなり高いです😸

【質問】

SDXLが、HuggingやCivitaiで利用できる非常に多くのモデルよりも優れていると言えるのはなぜですか?

私はStable Diffusion(以下SD)全般が初めてなので純粋に興味があります。
SDXLには、より広範で堅牢なトレーニングモデルが付属しているだけなのでしょうか?

SDXLは他のモデルよりちょっとだけ優れているだけなのでしょうか?

具体的に教えてください。

回答集
【A氏】

SD1.5は1024x1024の画像で学習。SD1.5は512x512の画像でトレーニングされたものです。

【B氏】

Chat-GPT4がChat-GPT3.5よりはるかに優れているのと同じ理由で、より多くのトレーニングとより大きなデータセットを元にしているから。

【C氏】

SD1.5、SD 2.1、SDXLは一般的に「モデル」と考えられているが、AIのファミリーと考えた方がより正確だろう。
civitaiやHuggingFaceにあるものはすべて、本質的にはSD1.5の子孫だ。
ファインチューンやマージとは対照的に、まったく新しい系統を作ることは、ほとんどのコミュニティーの手に余る。

SDXLがユニークなのは、新しいモデルファミリーであるだけでなく、よりインテリジェンスを備えたモデルファミリーだからだ。
いい例が、数を数えることだ: SD1.5は数を数えることができない。

SDXLはニューラルネットのニューロンが多いので、数を数えることができる。また、SD1.5では当たり外れがある「背が高い」、「隣に」などの構文キーワードもSDXLは理解できるかもしれない。
これらは、SDXLモデルだけでなく、今後数ヶ月の間にコミュニティが生み出すであろう子孫のファミリーのインテリジェンスの向上が期待される、全体的な改善の具体例に過ぎない。

【D氏】

↑の答えが私にとって最も腑に落ちた。時間を割いて説明してくれてありがとう。

【E氏】


1024になるように訓練され、新しいアーキテクチャーによる最適なプロンプトに従う。

1,024x1,024で訓練された = より詳細で、1,024x1,024までの解像度では変化形に(画像が)変形する可能性が低い。

新しいCLIPモデル=プロンプトに従うのが得意

そして、これはベースモデルであり、バランスを取ろうとしている一般的なモデルだ。ファインチューニング(微調整)をすればさらに良くなるだろう。

学習データの量だけでなく、アーキテクチャも完全に変更され、SDXLは以前のバージョンよりもはるかに汎用的になったようだ

【F氏】

SDXLはとんでもない量のVRAMを使うからだ
1024x1024にコストがかからないとでも?SDXLは前作(SD1.5, SD2.1)よりも高速であり、VRAMの効率が良いとは限らない。

詳しい技術的な説明については、SDXLのStablityAIで働いている人たちが書いたドキュメントを参照して下さい。
https://github.com/Stability-AI/generative-models/blob/main/assets/sdxl_report.pdf

【G氏】

「SDXL0.9紹介」より

SDXLはすでにSD1.5と2.1を明らかに凌駕していますが、リファイナーモデルを追加することで、パフォーマンスが向上します。
2段階のパイプラインの可視化: SDXLを使用して128×128の初期レイテントを生成。その後、特殊な高解像度リファイナーモデルを利用し、同じプロンプトを使用して、最初のステップで生成されたレイテントにSDEdit[28]を適用する。SDXLとリファイナーモデルは同じオートエンコーダを使用する。

より多くのパラメータ、他の選択肢よりもはるかに大きなスケール + 以前の小さなモデルのトレーニングの経験(ノイズオフセットなど...)を使って注意深くトレーニング。
より大きなモデル、より多くのパラメータ、より高解像度の画像でのトレーニング、より優れた言語理解。

【H氏】


基本的な形では、LoRaと微調整を加えた多くのSD1.5モデルよりも優れています。だから、ファインチューニングされ、マージされ、embedding(埋め込み)のカタログができたら、どうなるか想像してみてほしい。

【I氏】


プレステ5がプレステ4より優れているのと同じ理由だ。
SDXLは基本的に、1年間のオープンソースリサーチを見て、その洞察を新しいモデルアーキテクチャとデータセットに適用し、次世代を作るためのものだ。
単純なことだよ。

【J氏】

SDXLは以前のLORAでも使えるの?

【K氏】

いいえ、でも8GBのVRAMでトレーニングが可能なら、LORA制作者達は、この新しいモデルをベースにして、数ヶ月で1.5のLORAに追いつくでしょう。
(LORAは数ヶ月前まで存在しなかったが、本当に急速に成長している。SDXLのLORAの成長と同じことを期待したい)

以下にSD1.5/2.1とSDXL0.9の比較動画一覧を貼っておきます

ご参考になれば幸いです🤗

新宮ラリのAIシンギュラリティー チャンネル


セレブ


アートスタイル


クラスバラエティー


この記事が気に入ったらサポートをしてみませんか?