見出し画像

📝 Stable Diffusion XL が高性能だったので色々試した

先日公開した現行 StableDiffusion と ControlNet を使った画像生成手順だが、元は個人プロダクトのマスコットキャラクターを擬人化してみると面白そうという思いつきと、アイコンにできるかもという思惑があって始めたことだった。


が、アイコンとしては微妙という結果だった (分かってはいたが少しショック)


気を取り直してアイコンを生成することにした。ついでに7月中旬に公開予定の SDXL 0.9 (StableDiffusion XL) の性能を量るため、そちらを使用することにした


SDXL 0.9 (StableDiffusion XL) について

Create and inspire using the worlds fastest growing open source AI platform.

With Stable Diffusion XL, you can create descriptive images with shorter prompts and generate words within images. The model is a significant advancement in image generation capabilities, offering enhanced image composition and face generation that results in stunning visuals and realistic aesthetics.
Stable Diffusion XL is currently in beta on DreamStudio and other leading imaging applications. Like all of Stability AI’s foundation models, Stable Diffusion XL will be released as open source for optimal accessibility in the near future.

世界で最も急速に成長しているオープンソースのAIプラットフォームを使って、創造とインスピレーションを与えましょう。

Stable Diffusion XLを使えば、より短いプロンプトで説明的な画像を作成し、画像内に言葉を生成することができます。このモデルは画像生成機能を大幅に向上させ、画像合成と顔生成を強化し、驚くようなビジュアルとリアルな美学を実現します。
Stable Diffusion XLは現在、DreamStudioやその他の主要な画像処理アプリケーションでベータ版が提供されています。Stability AIのすべての基礎モデルと同様に、Stable Diffusion XLは近い将来、最適なアクセス性を実現するためにオープンソースとしてリリースされる予定です。

DeepL で翻訳

先月の 6/23 に SDXL beta だけでなく 0.9 が発表された

SDXL 0.9は、これまで使用していた最大級のCLIPモデルの一つCLIP ViT-g/14を含む2つのCLIPモデルを用いることで、処理能力に加え、より奥行きのある・1024x1024の高解像度のリアルな画像を生成することが可能になっております。

このモデルの仕様とテストについてのより詳細なリサーチブログは、近日中にSDXLチームによって公開される予定です。

記事で記述されているリサーチブログは以下

sdxl_report.pdf at main · Stability-AI/generative-models · GitHub


ちなみに SDXL 0.9 のフルリリースは研究目的なら今からでも申し込めば使えるらしい (審査にどれだけかかるか分からないけど、私は本日夕方に申し込んだ。もしかして申し込めば diffusers 経由で使えるのか?未検証)

If you would like to access these models for your research, please apply using one of the following links: SDXL-0.9-Base model, and SDXL-0.9-Refiner. This means that you can apply for any of the two links - and if you are granted - you can access both. Please log in to your Hugging Face Account with your organization email to request access. We plan to do a full release soon (July).

https://github.com/Stability-AI/generative-models#news


Clipdrop などでは Web サービスとして利用可能

SDXL 0.9はClipdrop by Stability AIで利用可能です。Stability AI API をご利用のお客様向けには間もなく提供される予定です、また、Stability AIのプレミアム画像処理アプリケーションDreamStudioや、NightCafeのような他の主要な画像生成ツールにも搭載される予定です。

https://ja.stability.ai/blog/sdxl-09-stable-diffusion


Hugging Face リンク


diffusers の使い方は リリースノートも分かりやすかった


プロンプトの手引き書

現時点で SDXL 0.9 が使えるWebサービスの一つである DreamStudio が公開しているドキュメントが分かりやすかった

今度これについてまとめようと思う


ロゴ制作

まず方向性から考える。

  • シンプル

  • 文字が入っておらずモチーフが良い

  • 「日々繰り返される用事を楽しく簡単に管理する」ことを目的としたプロダクトのロゴ

これを以下のプロンプトに落とし込んでいく

An logo of a panda by Leonardo da Vinci and Frederic Edwin Church, highly-detailed, dramatic lighting

https://dreamstudio.ai/user-guide#prompting

Prompt

Logo for a product that aims to make managing repetitive daily errands fun and easy, simple design, figures and symbols only, a white background, like Nike or Apple or MasterCard

Negative Prompt

human, women, men, text, Viewpoints other than the front, Complex design, Meaningless dots and lines

なんか期待するものとは違う微妙な結果になった。絵のクオリティは高いが。

SDXL 0.9

Beta でも同様

SDXL Beta

スマホでやったときは上手く行ったのだが

Prompt:
Logo for a service that aims to "manage repetitive daily errands in an easy and enjoyable way". The design is simple, with a check mark as the motif and a white background.

Negative Prompt:
text, Viewpoints other than the front, Complex design, Meaningless dots and lines

仕方がないので以下のような円を用意して input にした

なかなかいい感じ?
塗りつぶした円で Image strength を試してみたがだめだった。やはりガチャになるか

諦めかけてたところで ClipDrop で試してみたら良い感じにできた

最終的に ClipDrop の No style の方が良い精度で生成できた。一日400枚までなら生成できるので、納得いくまで繰り返し生成した

試したプロンプトは以下

Logo for a service that aims to "manage repetitive daily errands in an easy and enjoyable way". 1 motif like check mark, Simple Shape, Simple Figure, simple design, a white background

Logo for a product, 1 motif like check box, Simple Shape, Simple Figure, simple design, a white background

結果、以下のようなアイコンが誕生した

私の画像編集スキルが低いせいでケチを付け始めたら終わりないが、及第点くらいのできにはなったのではないだろうか。個人的にはそこそこ気に入っている


今回得た知見

SDXL 0.9 は、そのままでもプロンプトを始めとする入力値などの工夫次第では実用に耐えれそうだった

ClipDrop と DreamStudio では性能に差がありそう (特にプロンプトを適切に解釈して出力に反映する性能) だが、その要因がモデルなのか VAE なのか、はたまた別の違いなのかは分からなかった。今回のケースでは ClipDrop に軍配が上がる。

ただ、SDXL以前のモデルや学習済みモデルと比較すると、プロンプトの反映性能は高いように思える。


DreamStudio はネガティブプロンプトや入力設定値の細やかな設定が可能で、既存 SD の作業に慣れている人には馴染み深いかも。



おまけ: マスコットキャラクターを SDXL 0.9 で生成してみた結果

DreamStudio
ClipDrop
SDXL 以前のモデルに追加学習したモデル


この記事が気に入ったらサポートをしてみませんか?