Stable Diffusionで作る画像は本当に美しいのか？画像生成AIの品質と多様性について考える

2023年3月23日 22:50

はじめに
- Stable Diffusionとは何か？
- 画像生成AIの品質と多様性とは何か？
Stable Diffusionで作る画像の品質
- 潜在拡散モデルの仕組み
- テキスト入力やプロンプトエンジニアリングの影響
- 学習データや著作権問題の影響
Stable Diffusionで作る画像の多様性
- テキスト入力やプロンプトエンジニアリングの可能性
- モデルバージョンやカスタムオプションの違い
- 条件づけやインペインティングなどの応用例
Stable Diffusionで美しい画像を作るためには？
- 英語学習や翻訳ツールの活用方法
- プロンプトエンジニアリングや他の画像生成AIの利用方法
- ローカル環境で実行する方法や有料プランへ移行するメリット
終わりに

はじめに

こんにちは。この記事では、Stable Diffusionで作る画像がどれだけ品質が高く、多様性があるかを探っていきます。また、Stable Diffusionで美しい画像を作るために必要なスキルやツール、サービスなどを紹介していきます。

Stable Diffusionとは何か？

Stable Diffusionは、テキスト入力に応じて画像を生成するAIモデルです1 。潜在拡散モデルというアルゴリズムを使っており、ノイズから徐々に画像を復元していく仕組みです2 。OpenArtやMidjourneyなどのWebサービスで利用できます3。

画像生成AIの品質と多様性とは何か？

画像生成AIの品質とは、生成された画像がどれだけ鮮明で自然で美しいかということです。一般的には、解像度や色彩やテクスチャなどが高ければ高いほど品質が高いと言えます。しかし、品質は主観的なものでもあります。例えば、人物や動物の顔が歪んだり変形したりすることは品質が低いと感じる人もいれば、面白いや芸術的だと感じる人もいます。

画像生成AIの多様性とは、生成された画像がどれだけ異なったバリエーションや表現力を持っているかということです。一般的には、同じテキスト入力でも様々な画像が出力されれば出力されるほど多様性が高いと言えます。しかし、多様性も主観的なものでもあります。例えば、テキスト入力に沿った画像ではなくても想像力や創造力を刺激するような画像は多様性が高いと感じる人もいます。

Stable Diffusionで作る画像の品質

Stable Diffusionで作る画像の品質は、以下の要素に影響されます。

潜在拡散モデルの仕組み
テキスト入力やプロンプトエンジニアリングの影響
学習データや著作権問題の影響

それぞれ見ていきましょう。

潜在拡散モデルの仕組み

Stable Diffusionでは、潜在拡散モデル4 というアルゴリズムを使っています。このアルゴリズムでは、

テキスト入力から特徴量（ラテント）を抽出する
ノイズから始めてラテントに従って徐々にノイズを減らす（逆拡散）
逆拡散した結果から最終的な画像を得る

という流れで画像生成します。

このアルゴリズムでは、

ラテント抽出器（エンコーダー）や逆拡散器（デコーダー）や逆拡散器（デコーダー）のモデル構造やパラメータ数
逆拡散のステップ数やサンプラーの種類や設定
ラテント空間の次元数や表現力

などが画像の品質に影響します。これらは、モデルがどれだけ画像の特徴を捉えて、ノイズを効果的に除去して、高解像度で自然な画像を生成できるかということに関係します。

テキスト入力やプロンプトエンジニアリングの影響

Stable Diffusionでは、テキスト入力からラテントを抽出して、画像生成に利用します。このため、テキスト入力は画像の品質に大きく影響します。例えば、

テキスト入力が英語であること。日本語ではうまく動作しない場合があります。
テキスト入力が明確で具体的であること。曖昧や抽象的な表現では望む画像が得られない場合があります。
テキスト入力が長すぎないこと。長すぎるとラテント抽出器が過負荷になり、品質が低下する可能性があります。

また、テキスト入力だけでなく、プロンプトエンジニアリングという技術も画像の品質に影響します。プロンプトエンジニアリングとは、

テキスト入力に付加する情報や修飾語
ネガティブプロンプトと呼ばれる生成したくない内容を指定する方法
サブセットプロンプトと呼ばれる特定のカテゴリーやスタイルを指定する方法

などです。これらは、モデルがどれだけテキスト入力に沿った画像を生成できるかということに関係します。

学習データや著作権問題の影響

Stable Diffusionでは、LAION-5B という巨大なマルチモーダルデータセットから学習しています。このデータセットは、

インターネット上から収集された約50億枚の画像
それぞれの画像に対応する約1000万個の文書
それぞれの文書に対応する約1000万個の音声

から構成されています。このデータセットは非常に多様性豊かで包括的ですが、

著作権で保護されている可能性のある画像も含まれていることブログ記事の内容を続けて以下のように提案します。
- 著作権で保護されている可能性のある画像も含まれていること
- 画像や文書や音声が必ずしも一致していないこと
- 画像や文書や音声がノイズや不適切な内容を含むこと

などが画像の品質に影響します。これらは、モデルがどれだけ正確で安全で倫理的な画像を生成できるかということに関係します。

Stable Diffusionで作る画像の多様性

Stable Diffusionで作る画像の多様性は、以下の要素に影響されます。

テキスト入力やプロンプトエンジニアリングの可能性
モデルバージョンやカスタムオプションの違い
条件づけやインペインティングなどの応用例

それぞれ見ていきましょう。

テキスト入力やプロンプトエンジニアリングの可能性

Stable Diffusionでは、テキスト入力からラテントを抽出して、画像生成に利用します。このため、テキスト入力は画像の多様性に大きく影響します。例えば、

テキスト入力が異なれば、生成される画像も異なります。同じカテゴリーやスタイルでも、細かい表現やニュアンスによって、バリエーションが変わります。
テキスト入力に付加する情報や修飾語は、生成される画像にも反映されます。色や形やサイズなどを指定することで、望む画像に近づけることができます。
ネガティブプロンプトやサブセットプロンプトは、生成したくない内容や特定のカテゴリーやスタイルを指定することで、望ましくない画像を排除したり、希少な画像を探したりすることができます。

また、テキスト入力だけでなく、プロンプトエンジニアリングという技術も画像の多様性に影響します。プロンプトエンジニアリングとは、

テキスト入力からラテント抽出器（エンコーダー）へ渡す前に行う前処理ラテント抽出器（エンコーダー）や逆拡散器（デコーダー）へ渡す際に行うパラメータ調整
生成された画像からフィードバックを得てプロンプトを改善する方法

などです。これらは、モデルがどれだけテキスト入力に応じた多様な画像を生成できるかということに関係します。

モデルバージョンやカスタムオプションの違い

Stable Diffusionでは、複数のモデルバージョンやカスタムオプションが提供されています。これらは、画像の多様性に影響します。例えば、

モデルバージョンは、学習したデータセットやモデルサイズや解像度などが異なります。これらは、生成される画像の種類や質感や細部などに影響します。
カスタムオプションは、逆拡散のステップ数やサンプラーの種類や設定などが変更できます。これらは、生成される画像の精度や多様性や創造性などに影響します。

条件づけやインペインティングなどの応用例

Stable Diffusionでは、テキスト入力だけでなく、画像入力も利用できます。このため、条件づけやインペインティングといった応用例が可能です。これらは、画像の多様性に影響します。例えば、

条件づけとは、既存の画像を入力してその内容を変化させることです。例えば、「この絵に月を追加する」、「この絵を冬風景にする」、「この絵をアニメ風にする」などです。
インペインティングとは、欠損した部分を補完することです。例えば、「この絵の真ん中が空白だったら埋める」、「この絵から人物を消す」、「この絵から背景を消す」などです。

以上でStable Diffusionで作る画像の品質と多様性について探ってみました。Stable Diffusionは非常に強力で柔軟なAIモデルであり、クリエイターやビジネスパーソンにとって有用なツールと言えます。しかし、その利用方法はまだまだ発展途上であり、プロンプトエンジニアリングという新しい技術も必要です。今後もStable Diffusionの可能性を追求していきましょう。