![見出し画像](https://assets.st-note.com/production/uploads/images/148852968/rectangle_large_type_2_f12b088159cd1aba2d2b1a0e3033c806.png?width=1200)
画像生成AIモデルのプロンプト記述の違いとコツ(DiTモデル推奨記事)
![](https://assets.st-note.com/img/1722187694471-fudFWzB9rl.png?width=1200)
![](https://assets.st-note.com/img/1722187685889-KcuXU66Tyc.png?width=1200)
1. DiTモデル(Stable Diffusion 3など)
特性
高度なトランスフォーマーモデル。
詳細なテキストのコンテキスト理解に優れている。
複雑なプロンプトや長文の指示にも対応可能。
精緻なイラスト生成が得意。
プロンプト記述のコツ
詳細な指示: 色合い、光源、キャラクターのポーズや表情など、具体的な要素を細かく指定する。
メタタグの使用: スタイル、雰囲気、視点、追加要素など、適切なメタタグを駆使して詳細を具体化する。
文脈の明確化: 背景説明やストーリーを含め、一貫性のある生成を行う。
DiT向けのプロンプトの作り方とその可能性
詳細な描写:
色合いと光源: 例「明るい昼間の光が差し込む部屋」、「夕暮れの赤みがかった空」など。
キャラクターの詳細: 例「長い青い髪の少女が、本を読んでいる」など。
メタタグの活用:
スタイル: 例「水彩画風」、「リアリスティック」、「サイバーパンク」など。
雰囲気と視点: 例「幻想的」、「暗い」、「明るい」など。
文脈の追加:
ストーリー: 例「彼女は古い図書館で、数百年前の本を手に取っている。窓からは夕日が差し込み、静かな時間が流れている」など。
可能性
DiTは詳細なプロンプトを使用することで、非常に具体的かつ複雑なイラストを生成可能。
ユーザーはプロフェッショナルな品質のイラストを生成できる。
2. SDXL
特性
画像生成に特化した拡張版モデル。
高品質な画像生成が可能。
テキストの詳細なコンテキスト理解には限界がある。
プロンプト記述のコツ
明確で直感的: シンプルかつ明確なプロンプトが効果的。具体的なテーマやスタイルを伝える。
詳細のバランス: 必要なディテールを含めつつ、過度に複雑な指示は避ける。
キーワード重視: 主要なキーワードを活用し、テーマやスタイルを簡潔に伝える。
3. DALL-E 3
特性
OpenAIが開発した最新の画像生成モデル。
テキストから高解像度の画像を生成する能力に優れている。
創造的でユニークな画像生成が得意。
プロンプト記述のコツ
シンプルで具体的: 短くても明確な指示を与え、具体的なオブジェクトやシーンを簡潔に記述する。
クリエイティブな要素: ユニークな要素や創造的なコンセプトを含めることで、より面白い画像を生成する。
スタイルの指定: 生成したい画像のスタイルや雰囲気を簡潔に指定する。
まとめ
DiTモデル: 詳細な指示とメタタグを活用し、文脈を明確にする。
SDXL: シンプルかつ明確なプロンプトが効果的で、主要なキーワードを重視する。
DALL-E 3: クリエイティブでユニークな要素を取り入れたシンプルなプロンプトが有効。
それぞれの特性を活かしたプロンプト記述により、初心者から上級者まで、より質の高いイラスト生成が可能となります。特にDiTでは、細かな情報をきちんと書くことで、より高品質な生成が期待できるため、詳細なプロンプト作成が推奨されます。
![](https://assets.st-note.com/img/1722188344323-Ip8Ac5zQvO.png?width=1200)