完全に自分用のメモ
Stable Diffusion の画像生成 (Generation) 設定: 究極の解説
Stable Diffusion は、強力な画像生成AIであり、そのポテンシャルを最大限に引き出すためには、様々な設定項目を理解し、使いこなすことが重要です。ここでは、画像生成プロセスにおけるあらゆる設定項目を、可能な限り詳細に解説します。
1. テキストプロンプト (Prompt)
画像生成の根幹: 生成したい画像の内容を言葉で記述します。これが画像生成の出発点であり、最も重要な要素です。
具体的な単語: "青い空" よりも "鮮やかな青い空" の方が、色合いのイメージを具体的に伝えることができます。
例: "明るい青空"、"深い青色の夜空"、"夕焼けのオレンジ色の空" など、より詳細な情報を記述することで、AIはより正確な色合いを理解できます。
形容詞と副詞: "美しい" よりも "華麗な" や "神秘的な" の方が、画像に独特の雰囲気を与えることができます。
例: "きらびやかな"、"幻想的な"、"荒涼とした"、"温かい"、"冷たい" など、言葉で表現できない感情や雰囲気を伝えることで、AIはそれを画像に変換しようと試みます。
動詞: "飛んでいる"、"踊っている" などの動詞を使うことで、画像に動きや躍動感を与えることができます。
例: "舞い上がる"、"駆け抜ける"、"揺らめく"、"沈む"、"輝く" など、動詞によって画像にダイナミズムが加わります。
構文: "空に浮かぶ雲" よりも "白い綿毛のような雲が空に浮かんでいる" の方が、より詳細なイメージを伝えることができます。
例: "太陽の光に照らされて輝く雲"、"雨雲が重なり合って暗く覆う空"、"風になびく草木" など、具体的な描写は、AIがより具体的なイメージを生成する助けとなります。
Negative Prompt: 生成したくないものを記述することで、望まない要素を除去することができます。
例: "醜い、暗い、ぼやけた"、"人間、建物、車"、"現代的な"、"現実的な" など、不要な要素を明示的に排除することで、より意図した画像を生成できます。
Image Prompts: 既存の画像をプロンプトとして使用することで、画像のスタイルや雰囲気を参考に、新しい画像を生成することができます。
例: ある絵画を参考に、その画風で新しい画像を生成する。
別の画像の要素を組み合わせて、新しい画像を生成する。
Image Strength: 画像プロンプトの強度を調整します。
低い値: 既存の画像に少し影響を受けた画像を生成します。
高い値: 既存の画像に強く影響を受けた画像を生成します。
2. 画像生成方法 (Sampling Method)
画像生成の中核: 画像生成に使用するアルゴリズムを指定します。それぞれの特徴を理解することで、最適な方法を選択できます。
Euler a: 標準的な方法で、多くの場合良い結果が得られます。バランスのとれた性能と言えます。
Euler: 速度重視で、サンプリング時間が短縮されます。品質は若干劣る場合がありますが、高速な生成が求められる場合に適しています。
LMS: 高品質な画像生成に適していますが、時間がかかります。非常に細かいディテールを表現したい場合に最適です。
DPM++ 2M: LMS より高速で、高品質な画像生成を実現します。多くのユーザーに推奨されます。
DPM++ SDE: DPM++ 2M と同様に高速で高品質です。より安定した生成結果が得られる場合もあります。
DDIM: 高品質な画像生成に適し、高速です。LMS や DPM++ よりも生成時間が短縮されます。
PLMS: 高品質な画像生成に適し、安定性が高いです。ノイズやアーティファクトの発生を抑えられます。
3. サンプリングステップ数 (Sampling Steps)
生成の詳細度: 画像生成の過程におけるステップ数です。
少ないステップ数: 早いですが、ノイズや粗い部分が残る可能性があります。
多いステップ数: 時間はかかりますが、より滑らかで詳細な画像を生成できます。
最適なステップ数: 生成したい画像の複雑さや詳細度によって調整する必要があります。一般的には、50~100ステップが推奨されます。
4. ガイド強度 (Guidance Scale)
テキストプロンプトの重要度: テキストプロンプトのガイド強度を調整します。
低い値: AIはプロンプトにあまり従わず、独自に解釈した画像を生成します。
高い値: AIはプロンプトに忠実に従い、イメージ通りの画像を生成しようとします。
最適な値: プロンプトの内容や画像の複雑さによって異なります。一般的には、7~15程度が推奨されます。
5. 乱数シード (Seed)
画像生成の再現性: 画像生成の乱数シードを指定します。同じシードを使用すると、同一の画像が生成されます。
特定の画像を再生成したい場合や、画像のバリエーションを作成する場合に役立ちます。
Seed の探索: 様々なシード値を試すことで、同じプロンプトでも異なるバリエーションの画像を生成できます。
6. 画像サイズ (Width / Height)
出力画像のサイズ: 生成される画像の横幅と高さを指定します。
解像度: 高解像度の画像を生成したい場合は、幅と高さを大きく設定します。
アスペクト比: 横長、正方形など、目的とするアスペクト比に合わせて調整します。
7. 画像スケール (Scale)
画像の大きさ: 画像の大きさを調整します。
拡大: 生成された画像を拡大縮小できます。
8. アップスケール (Upscaling)
解像度向上: 画像の解像度を上げる処理です。
Real-ESRGAN: 高品質なアップスケール処理を実行できます。
R-ESRGAN: Real-ESRGAN と同様に高品質なアップスケール処理を実行できます。
Latent Upscale: Stable Diffusion の潜在空間に直接アップスケール処理を行う方法です。高速で高品質なアップスケールが可能です。
9. ノイズ除去強度 (Denoising Strength)
画像の鮮明度: ノイズ除去の強度を調整します。
低い値: ノイズが多く残る画像を生成します。
高い値: ノイズが少なく、より鮮明な画像を生成します。
10. CFG Scale
テキストプロンプトのガイド強度 (詳細調整): Guidance Scale と似ていますが、より細かい制御が可能です。
Guidance Scale との組み合わせで、より複雑な画像生成を実現できます。
11. 顔修復 (Face Restoration)
顔の自然な表現: 顔の認識と修復を行います。
CodeFormer: 顔の輪郭や表情をより自然に表現できます。
GFPGAN: CodeFormer と同様に、高品質な顔の修復を行うことができます。
12. モデル選択 (Model)
画像生成能力: 使用するモデルを指定します。
Stable Diffusion 1.5: 標準的なモデルで、様々な画像を生成できます。
Stable Diffusion 2.0: 1.5 よりも高品質な画像生成を実現します。
Stable Diffusion XL: 最も高品質なモデルです。
その他: 様々なモデルが公開されており、それぞれの特性に合わせた画像生成が可能です。
13. バッチサイズ (Batch Size)
同時生成数: 一度に生成する画像数を指定します。
高速化: 複数の画像を同時に生成することで、処理時間を短縮できます。
14. 精度 (Precision)
計算精度: 画像生成に使用する精度を指定します。
高精度: より高品質な画像を生成できますが、処理時間が長くなります。
15. スケジューラー (Scheduler)
生成過程の制御: 画像生成のスケジュールを指定します。
異なるスケジュール: 生成過程を細かく制御することができます。
16. CLIP スキップ (Clip Skip)
CLIP モデルの処理: CLIP モデルの処理をスキップする場合、スキップするステップ数を指定します。
高速化: CLIP モデルの処理をスキップすることで、処理時間を短縮できます。
17. その他のパラメータ
画像生成において、様々な設定項目が存在します。 それぞれの項目の意味を理解し、最適な設定を見つけることが重要です。
18. 利用可能なツール
Stable Diffusion Web UI: ブラウザ上で Stable Diffusion を操作できる GUIツール。初心者でも扱いやすく、様々な設定項目や機能が充実しています。
Automatic1111: Stable Diffusion Web UI の派生版。より多くの機能とカスタマイズオプションを提供します。
Dream by WOMBO: スマートフォンアプリで簡単に Stable Diffusion を利用できます。
その他: 様々なツールが存在し、Stable Diffusion をより便利に活用することができます。
19. 注意点
パラメータの組み合わせは無限大であり、最適な設定は生成したい画像や目的によって異なります。
多くのパラメータは相互に影響するため、調整には試行錯誤が必要です。
パラメータを調整する際には、生成結果をよく確認しながら最適な設定を探してください。
Stable Diffusion は常に進化しています。新しいモデルや機能が追加される場合があります。最新の情報を入手し、最新バージョンを活用することも重要です。
Stable Diffusion は、これらのパラメータを調整することで、様々なスタイルや雰囲気の画像を生成することができます。ぜひ、これらのパラメータを理解し、使いこなして、自分だけのオリジナル画像を生成してみてください。
この記事が気に入ったらサポートをしてみませんか?