LLMと画像生成AIを組み合わせ、デザインコンセプトを4象限マトリクスで整理・検討する
設計の初期段階でデザインの方向性を決めたり、ステークホルダー間でイメージを共有するため、デザインコンセプトを縦横2軸の4象限のマトリクスで整理・検討することがありますが、それを、GPT-4oと画像生成AIを組み合わせて、Difyのワークフローによって自動化することを考えます。
例えば、オフィスのインテリアイメージのコンセプトとして、下図のようにX軸をカジュアル(-1.0)~フォーマル(1.0)、Y軸を木質(-1.0)~無機質(1.0)に設定し、それぞれの数値でコンセプトの強度を表わすことにします。
以前Difyで作成した、複数モデル対応画像生成アプリを改造し、X・Yの値を変化させながら、GPT-4oに画像生成AI用のプロンプトを生成させ、各種画像生成AIでそのプロンプトに従った複数のイメージを自動生成させます。
Difyで作成したワークフローの全体図です。Difyでは多重ループ処理ができないので、イテレーションの前とイテレーションの中にPythonのコードブロックを置いて、X・Y値の組み合わせを配列で指定しています。
GPT-4oのシステムメッセージは、以下のように設定しています。X・Yの値は変数になっていて、ループ処理中にDifyから変化する値が代入されます。
システムメッセージは、作成させたい画像の用途や種類によって変えたり、いろいろと工夫する余地があると思いますので、今後も試行錯誤して、よりベターなものを目指すことにします。
【システムメッセージの例】
あなたは、画像生成AI用のプロンプトを作成する、最高で比類なき専門家です。
画像生成AIによって、オフィスの内装デザイン案を生成するためのプロンプトを、以下の手順に従って作成してください。
まず、内装デザインのコンセプトを制御するパラメータとして、以下のX-Y軸を設定します。
* X軸が表わすコンセプトは以下の通りで、-1から-1の範囲の数値でそのコンセプトの強度を表わすことにします。
- カジュアル(-1):
- バランス(0):
- フォーマル(1):
* Y軸が表わすコンセプトは以下の通りで、-1から-1の範囲の数値でそのコンセプト強度を表わすことにします。
- 木質系(-1)
- バランス(0)
- 無機質系(1)
* このX-Y軸のパラメータは-1~1の範囲の数値とし、X軸の値は{変数X}、Y軸の値は{変数Y}に設定してください。
* 設定したパラメータで表されるコンセプトにマッチした、内装デザインのコンセプト画像を生成するためのプロンプトを作成してください。
* プロンプトには、以下の内容を含めてください。
- フォトリアルな写真画像であること
- 東京・渋谷に建つオフィスビルを想定していること
- オフィスの中では、日本人の男女のオフィスワーカーが数人働いていること
- 環境やウエルネスに配慮したオフィスであること
- アイレベルからの視点であること
* 上記以外の内容については、パラメーターとして設定した数値で表させるコンセプトにマッチするような、具体的な情景や天井・壁・床などの材質、色彩、机やイスなどの家具について、想像を最大限に膨らませて記述してください。
* 必ず前回に生成したプロンプトと同じアングルを維持してください。
* プロンプトは必ず英語で生成してください。
* また、生成したプロンプト以外の文章は絶対に出力しないでください。
* では、画像生成AIに最高の画像を出力させるためのプロンプトを生成しましょう!
GPT-4oによって生成されたプロンプト(X=1.0, Y=-1.0の場合)の例です。
X・Yの値を変化させながら、その値に応じて生成されたプロンプトをFlux.1[pro] に渡して画像生成させているところです。イメージが連続で出力されていきます。
生成されたオフィスのインテリアイメージを、4象限マトリクスにプロットし、X軸をカジュアル~フォーマル(1.0)、Y軸を木質(-1.0)~無機質(1.0)で整理した全体図です(プロット自体は手動)。
Y=1.0(無機質)に固定して、X=-1.0(カジュアル)X=0.0(バランス)~X=1.0(フォーマル)に変化させたところ。
Y=0.0(バランス)に固定して、X=-1.0(カジュアル)X=0.0(バランス)~X=1.0(フォーマル)に変化させたところ。
Y=-1.0(木質)に固定して、X=-1.0(カジュアル)X=0.0(バランス)~X=1.0(フォーマル)に変化させたところ。
GPT-4oには比較的自由にプロンプト生成をさせているので、構図などが毎回変わっていますが、設計初期段階ではあまりイメージを固定しない方が良い場合もあります。
設計初期段階でのアイディア出しや、イメージの方向性を検討したり、ステークホルダーの間でおおよそのイメージを共有したい時には使えそうです。
GPT-4oも各種画像生成AIもAPI経由で利用しているので、それなりのプログラムを書けば、4象限マトリクスへのプロットまで含めて自動化できるのではないかと思いますが、Difyなら試行錯誤含め手軽に試せますね。