見出し画像

画像生成AI対決!建築画像生成16番勝負(2024.12.1版)

古い画像生成モデルとなってしまった 「Stable Diffusion 3 Turbo」「DELL-E 3」を外し、前回(2024.10.1) 以降にリリースされたモデル「Recraft V3」「Stable Diffusion 3.5 Large」を新たに加え、7種類の画像生成モデル(「Recraft V3」「Stable Diffusion 3.5 Large」「FLUX1.1 [pro]」 「Imagen 3」 「Ideogram 2.0」「Midjoruney v6.1」「Firefly Image 3」)によって、16種類の同じプロンプトで作成した建築画像を比較してみました。

各画像生成モデルのリリース日は左下表のとおりで、今回は2024年10月30日リリースの「Recraft V3」が最新の画像生成モデルとなっています。

Artificial Analysis の画像生成モデルランキング(ELOスコア)は右下図(「Imagen 3」は実験的機能のため除外)となっており、生成した画像は画像生成モデルのリリース日の順に並べています。

比較した画像生成モデルとリリース日(赤字は今回追加)
Artificial Analysis Image Arena Leaderboard (Dec 1, 2024)

内観

3層吹抜のギャラリーを持つ日本の公立図書館

プロンプトで意図したイメージはFLUXやMidjourneyに近いのですが、Midjourneyは3層吹き抜けになっておらず、Recraftは少しクラッシックなイメージになりました。また、SD 3.5は点景の人間が宙に浮いているように見えるのと、Fireflyはプロンプトのどこに引っかかったのかわかりませんが、生成自体してくれませんでした。

有機的で開放的なアトリウムを持つ美術館

Midjorneyのデザインはユニークですが、かなり暴れていてw 建築物として成立させるのが難しそうです。RecraftやFireflyは点景の人の形が崩れており、さらに、Fireflyではトップライトの窓枠なども歪んでいるので見ていて不安になります。

木と光が織りなす開放的な学びの空間

全般的に、踊り場がなかったり、階高に対して段数が見合っておらず、画像生成AIとって階段は鬼門のようです。特に、SD 3.5やFireflyは階段だけでなく、建築的に破綻している箇所が多いように感じます。また、RecraftやFireFlyでは点景の人の形も崩れてしまっています。

東京の街並みが一望できる高級車のショールーム

東京の街並みということで、FLUXとImagenは東京タワーらしきものが描かれていますが、他は街並みに東京らしさをあまり感じられません。ただし、FLUXはなんだか上海タワー?みたいですが。Fireflyは階段の形状がやっぱりおかしいですし、点景の人の形も怪しいです。

自然素材とモダンなデザインが調和するオフィスエントランス

全般的に、空調機の数や位置がおかしいものが多いようです。まあ、設計をしているわけではないので仕方ないですかね。Fireflyは目地が歪んでいたり、建築的な納まりが不自然になってしまっています。

多様性と創造性を育む東京のコワーキングオフィス

SD 3.5やFireflyは透視図方が破綻していて、建築躯体とダクトや照明器具の間に歪みが生じていますし、相変わらずFireflyは人の形も崩れてしまっています。

夕暮れの東京を一望する温もりのあるカフェ

こちらも、東京の街並みということで、Recraft、FLUX、Imagen、Midjorneyは東京タワーらしきものが描かれていますが、相変わらずFLUXやRecraftはどこの国のタワーだかわかりませんねw

雨降る夜の東京の居心地の良いカフェ

FLUXやImagenの看板の文字が無国籍なのはご愛敬ですが、SD 3.5は室内の情景なのに雨で床が濡れているようです。

クリスマスセールで賑わう日本の高級ショッピングモール

床にカーペットが敷かれていないもの(Imagen、Firefly)や プレゼントを配っているサンタクロースが描かれていないもの(Ideogram、Midjorney、Firefly)などがあり、全般的に、狙ったような画像が生成できませんでした。また、SD 3.5やFireflyは相変わらずトップライトの形状や窓枠が歪んでいるので、見ていて不安になります。

モダンでシンプルなリビングルームで寛ぐ大型犬

外観

すべてのモデルで、概ねプロンプトの指示通りに生成してくれたようです。ただ、なぜかRecraftとFireflyは、ワンちゃんを描いてくれませんでした。

夕暮れの川沿いに建つガラス張りの高層オフィスビル

デザイン的な好き嫌いはあると思いますが、こちらも、すべてのモデルで概ねプロンプトの指示通りに生成してくれました。

グリッド状ガラス窓のオフィスビルのファサード

意図したイメージに一番近かったのはMidjournyですが、Recraftは他の画像生成モデルと比べてアングルが独特ですね。SD 3.5、FLUX、Ideogramでは、天井照明の見え方が透視図法的におかしくなってしまいました。また、Fireflyは建築物として成立しておらず、どこがどうなっているのか判別できません。

東京のオフィス街にある10階建て木質化テナントビル

全般的に階数(10階建て)までは正確には守られていませんが、中層のオフィスビルにはなりましたが、SD 3.5は建築物として不自然な形状となっています。また、Ideogramは、街を走る自動車が右側通行なのか左側通行なのかよくわかりません(ぶつかりそう)し、相変わらずFireflyは目地などが歪んでいて見ていて気持ちが悪いですね。

スタイリッシュで洗練された東京のショッピングストリート

FLUXが意図したイメージに近いのですが、Midjourneyの陰影のある雰囲気も、東京・丸の内界隈みたいで悪くないですね。あと、やはり、RecraftやFireflyは点景の人間がまともに生成できておらず、Fireflyは石畳の目地も歪んでいます。

陽光降り注ぐ沖縄のビーチに建つリゾートホテル

ユニークなデザインのリゾートホテルを生成したかったのですが、建築物としては成立しにくく、また、デザイン的にもさほどイケてない、中途半端な感じになりました。その中でも、Fireflyはプロンプトの指示をあまり反映しておらず、建築物としてもあちことで破綻してしまっています。

東京都心にある近未来的なスポーツスタジアム

新国立競技場のザハ・ハディド案をイメージしつつ生成してみましたが、プロンプトの指示もあまり良くないようで、全般的にあまりユニークなデザインのスタジアムにはなりませんでした。RecraftやFireflyは屋根やフィールドの形状が破綻してい るのと、周辺環境で言えば、SD 3.5は少なくとも東京都心には見えないですね。

まとめ

2024年7月以降にリリースされた新しい画像生成モデルは、生成するものによって得手・不得手はあるものの、高品質な建築画像を生成してくれるので、出力したいデザインの傾向や生成するものによって、最適なモデルを選択するのが良いですね。

Artificial Analysis の画像生成モデルランキング(ELOスコア)で最高点となった「Recraft V3」は、パースペクティブが歪みがちで、点景となる人の形も崩れてしまうことも多く、個人的には少し期待外れの結果となりました。
人物などの描写や文字入れは強いようなので、広告やロゴ、パッケージデザインなどのデザインワークに向いている画像生成モデルと感じます。

他の画像生成モデルよりリリース日が若干古い「Firefly Image 3」は、建築画像の生成という観点からすると課題が多く、柱や梁が直交せず、階が途中で消失したり、現実ではありえないような納まりになる傾向があります。
また、目地や透視図法も歪んでしまうことが多く、建築物の生成が苦手な印象で、点景となる人の形(動物なども)も崩れ勝ちでした。

画像生成モデルによってプロンプトの記述方法にコツがあったり、プロンプトへの応答性が異なるので、単純に同じプロンプトで比較すると有利・不利が出る可能性はあるものの、これからはカンマで区切った呪文のようなプロンプトではなく、自然言語で詳細に記述した内容が反映される画像生成モデルが主流になるのではないかと思います。

いいなと思ったら応援しよう!