【AI美女生成】CFG Scaleについて
簡単に言うと
CFG Scaleは、画像生成時のプロンプトへの忠実度を調整する設定です。低くすると自由で創造的な表現に、高くするとプロンプトに忠実な画像になります。一般的には6~10が自然なバランスです。
CFG Scale(Classifier-Free Guidance Scale)は、Stable Diffusionで画像生成時にプロンプトに対する忠実度を調整するためのパラメータです。CFG Scaleを調整することで、生成される画像がプロンプトにどの程度従うか、またはどの程度自由に生成されるかが変わります。この設定は、プロンプトの解釈度合いを変えるため、生成される画像のディテール、構図、スタイルに大きく影響を与えます。
CFG Scaleの仕組み
CFG Scaleは、条件付き生成と条件なし生成を組み合わせることでプロンプトへの忠実度を調整します。たとえば、CFG Scaleが高いほど、条件(プロンプト)に強く従うように調整され、低いほどプロンプトから自由な生成が可能です。
条件付き生成:プロンプトの指示に従って画像が生成されます。
条件なし生成:プロンプトの指示が無視され、ランダム性を持つ自由な生成が行われます。
この2つの生成方法をうまく組み合わせることで、画像に自由さと忠実さのバランスを加えるのがCFG Scaleの役割です。
CFG Scaleの詳細な設定例
1. CFG Scaleが低い設定(1~5)
プロンプトの影響:プロンプトの影響が弱く、生成モデルがより自由に表現します。
特徴:
プロンプトに対して比較的抽象的な解釈が行われるため、予想外の表現が出やすいです。
プロンプトから離れた部分に独創性が生まれ、抽象的、または非現実的な描写が得られることが多いです。
低いCFG Scaleでは、生成される画像がややぼやけたり、構図が曖昧になる場合もあります。
用途:クリエイティブなアート、独特なスタイルが求められる場面、実験的な生成。
例:「forest in a mystical style」というプロンプトでCFG Scaleを低くすると、森の表現が緩やかになり、幻想的で抽象的な雰囲気が出やすくなります。
2. 中程度のCFG Scale(6~10)
プロンプトの影響:プロンプトに適度に従い、自由度と忠実度のバランスが取れています。
特徴:
プロンプトに沿った自然な画像が生成され、全体的に安定した結果が得られます。
生成される画像には、ディテールと柔軟な解釈のバランスが取れており、プロンプトに忠実でありながらも自然な表現が出やすいです。
この範囲では、細かなディテールや構図も比較的はっきりと表現されます。
用途:一般的な生成、人物や風景の描写、プロンプトに忠実な画像生成が求められる場合。
例:「sunset over a calm lake」でCFG Scaleを7に設定すると、夕日が湖の上に穏やかに映り込んだバランスの良い風景が生成されます。
3. 高いCFG Scale(11~15)
プロンプトの影響:プロンプトに非常に強く従い、指定された内容を厳密に反映しようとします。
特徴:
プロンプトに忠実な画像が生成され、詳細なディテールや特定の要素が明確に表現されます。
一方で、CFG Scaleが高すぎると、不自然なディテールが強調されすぎたり、画像の一部が歪んだりすることがあります。
設定を12以上にすると、プロンプトの指示が過剰に強調されるため、自然なディテールが損なわれるリスクもあります。
用途:正確な描写が求められる広告や資料、プレゼンテーション向けの生成など、プロンプトに厳密に従う必要がある場合。
例:「a futuristic cityscape with neon lights at night」でCFG Scaleを13に設定すると、プロンプト通りに未来的な都市がはっきりと描かれ、ネオンライトが強調された夜景が生成されますが、やや不自然なコントラストや過剰なディテールが加わることもあります。
4. 極端に高いCFG Scale(16以上)
プロンプトの影響:プロンプトの指示が非常に強調されますが、画像が不自然に歪んだり、意図しないノイズが発生しやすくなります。
特徴:
プロンプトの要素が過度に反映され、画像の一部に不自然さや歪みが目立つことがあります。
人工的なディテールが多くなることがあり、画像の自然さが大幅に損なわれやすいです。
例外的な状況でしか使用されないことが多く、特定のエフェクトを狙ったアート作品などに使用されることがあります。
用途:特異なスタイルやエフェクトを強調したい場合、実験的な生成。
例:「a detailed map of a fantasy world」でCFG Scaleを16以上にすると、細部が非常に強調されたファンタジー地図が生成されますが、細部が過度に強調されて不自然な表現が目立つ可能性が高くなります。
CFG Scaleの調整による画像生成の最適化ポイント
自然さと忠実さのバランス
通常は6~10の範囲でCFG Scaleを設定することで、自然なディテールとプロンプトへの忠実さが両立しやすくなります。
11以上は細かい部分まで正確に描写される反面、不自然さが出やすいため、10以下で調整することが推奨されます。
プロンプトの内容に応じた設定
風景やキャラクターなどのシーンには6~10が適しており、細かく複雑な内容を正確に描写したい場合には11~13程度に設定すると、適度にプロンプトに忠実な結果が得られます。
複雑なシーンと単純なシーンの違い
複雑なシーン(例:都市景観、詳細なポートレート)では、低めのCFG Scale(5~7)でも十分にディテールが反映され、過度な設定は避けるのが一般的です。
単純なシーンやデザイン(例:シンボルやアイコン)では、10以上のCFG Scaleを設定すると、プロンプトに対して正確で鮮明な表現が得られやすくなります。
CFG Scaleと他の設定との調整
サンプリングステップ:CFG Scaleを高くしすぎると、サンプリングステップが多い場合に歪みが増すことがあります。高めのCFG Scaleではステップ数を少し減らし、中程度のCFG Scaleでステップ数を増やすと自然な画像が得られやすいです。
Sampling method:DDIMやEuler aなど、少ないステップ数でもプロンプトに忠実な生成が可能なメソッドとの組み合わせでは、CFG Scaleを低く抑えつつもプロンプトに適した生成が可能です。
まとめ
CFG Scaleは、生成画像の忠実度と自由度のバランスを調整するための重要なパラメータです。プロンプトの解釈度合いを調整し、目的や表現したいスタイルに応じて最適なCFG Scaleを選ぶことで、理想に近い画像生成が実現しやすくなります。