
同じプロンプトで仕上がりを比較/Firefly・Stable Diffusion・DALL-E3
前回、DALL-E3をベースにコレクションを制作してみましたが、同じプロンプトで仕上がりの比較をしてみたくなったので試してみました。
プロンプトは英語、カメラアングルの指定は入れていません。
Adobe Firefly
コンテンツタイプ/写真 ・ スタイル/なし ・ 効果/なし

かなり写真のように仕上がるのが特徴ですが、以前も感じたのですが、Fireflyは年代を指定しないと貫禄のある仕上がりになる印象。ヘアメイク、ランウェイと客席については反映されておらず、ファッションショーというよりフリー素材のような雰囲気。
コンテンツタイプ/写真 ・ スタイル/画像 ・ 効果/なし

あまりにもヘアメイクが反映されなかったので、”自分の参照画像のスタイルを一致させます”という新機能、Image 2(Beta)が使えるようになっていますので、こちらの画像をスタイルのベースに設定してみます。スタイルの反映強度は3段階選べたので中間にします。

こちらも貫禄のある仕上がりに。ランウェイと客席に関しては相変わらず反映されず屋外になっています。スタイルの画像有り無しどちらの場合も、ドレス・コート共にデザインはかなりシンプル。Fireflyの人物は実在しそうなリアルな仕上がり。
Stable Diffusion
txt2img

全く同じプロンプトで生成してみました。髪型がこれまでなかったアップになっていて、メイクや服のデザインもファッションというより、ゲームのキャラクターのような、ステージ衣装のような仕上がり。会場は完全に屋内のセット。
※Stable Diffusionは、CheckpointやSamplerで仕上がりがだいぶ変わってしまいますが、今回はサイズ512*512・ステップ数20で顔が崩れなかった組み合わせを比較画像に採用しました。
img2img

FireflyのImage 2(Beta)はスタイルを指定するものなので、Stable Diffusionのimg2imgとは性質が違いますが、img2imgでも生成してみます。

Fireflyではスタイルの反映強度を中間にしたので、Denoising strengthを0.5に設定。img2imgだけあって、0.5では同じ構図。

Denoising strengthを1まで上げると構図が変わる。グリッターのメイクはこちらでも反映されない。
DALL-E3

公平にするため、長めに会話をしたり、資料画像を送ったりしてからの生成ではなく、まっさらな状態で”同じプロンプトのみ”で生成しました。
服のデザインや髪型&メイクも希望がしっかり表現されていて、顔の崩れもありません。プロンプトだけで、しかも内容をかなり反映して、ここまで美しく仕上げてくれる事に感動しました。
まとめ
今回の比較に関してのみの感想にはなりますが、プロンプトの指示が伝わりやすいのは圧倒的にDALL-E3だと思いました。顔立ちの仕上がりは好みの話になってしまいますが、DALL-E3がダントツでファッションモデルっぽい顔に仕上げてくれた気がします。メイクのグリッターもしっかり表現されています。
他2つがプロンプトだけでの表現になるので、公平にするため今回Stable Diffusionは「サイズ512*512・ステップ数20」と作り込んでいないので、そんなにリアルな仕上がりになりませんでしたが、ポーズや構図までかなり細かく設定できるので、明確に作りたいものがある場合はStable Diffusionかなと思いました。
今回はファッションショーという特殊なテーマだったのですが、Fireflyは人物をとてもリアルに仕上げるのが得意な印象なので、今度はファッションモデルという現実離れした人物ではなく、ストリートスナップなど一般的な人物を生成した場合を比較してみたいと思いました。
仕上がりの雰囲気がかなり異なるので、様々な作品ができて面白い!