
画像生成AI対決!建築画像生成16番勝負(2024.12.1版)
古い画像生成モデルとなってしまった 「Stable Diffusion 3 Turbo」「DELL-E 3」を外し、前回(2024.10.1) 以降にリリースされたモデル「Recraft V3」「Stable Diffusion 3.5 Large」を新たに加え、7種類の画像生成モデル(「Recraft V3」「Stable Diffusion 3.5 Large」「FLUX1.1 [pro]」 「Imagen 3」 「Ideogram 2.0」「Midjoruney v6.1」「Firefly Image 3」)によって、16種類の同じプロンプトで作成した建築画像を比較してみました。
各画像生成モデルのリリース日は左下表のとおりで、今回は2024年10月30日リリースの「Recraft V3」が最新の画像生成モデルとなっています。
Artificial Analysis の画像生成モデルランキング(ELOスコア)は右下図(「Imagen 3」は実験的機能のため除外)となっており、生成した画像は画像生成モデルのリリース日の順に並べています。


内観

プロンプトで意図したイメージはFLUXやMidjourneyに近いのですが、Midjourneyは3層吹き抜けになっておらず、Recraftは少しクラッシックなイメージになりました。また、SD 3.5は点景の人間が宙に浮いているように見えるのと、Fireflyはプロンプトのどこに引っかかったのかわかりませんが、生成自体してくれませんでした。

Midjorneyのデザインはユニークですが、かなり暴れていてw 建築物として成立させるのが難しそうです。RecraftやFireflyは点景の人の形が崩れており、さらに、Fireflyではトップライトの窓枠なども歪んでいるので見ていて不安になります。

全般的に、踊り場がなかったり、階高に対して段数が見合っておらず、画像生成AIとって階段は鬼門のようです。特に、SD 3.5やFireflyは階段だけでなく、建築的に破綻している箇所が多いように感じます。また、RecraftやFireFlyでは点景の人の形も崩れてしまっています。

東京の街並みということで、FLUXとImagenは東京タワーらしきものが描かれていますが、他は街並みに東京らしさをあまり感じられません。ただし、FLUXはなんだか上海タワー?みたいですが。Fireflyは階段の形状がやっぱりおかしいですし、点景の人の形も怪しいです。

全般的に、空調機の数や位置がおかしいものが多いようです。まあ、設計をしているわけではないので仕方ないですかね。Fireflyは目地が歪んでいたり、建築的な納まりが不自然になってしまっています。

SD 3.5やFireflyは透視図方が破綻していて、建築躯体とダクトや照明器具の間に歪みが生じていますし、相変わらずFireflyは人の形も崩れてしまっています。

こちらも、東京の街並みということで、Recraft、FLUX、Imagen、Midjorneyは東京タワーらしきものが描かれていますが、相変わらずFLUXやRecraftはどこの国のタワーだかわかりませんねw

FLUXやImagenの看板の文字が無国籍なのはご愛敬ですが、SD 3.5は室内の情景なのに雨で床が濡れているようです。

床にカーペットが敷かれていないもの(Imagen、Firefly)や プレゼントを配っているサンタクロースが描かれていないもの(Ideogram、Midjorney、Firefly)などがあり、全般的に、狙ったような画像が生成できませんでした。また、SD 3.5やFireflyは相変わらずトップライトの形状や窓枠が歪んでいるので、見ていて不安になります。

外観
すべてのモデルで、概ねプロンプトの指示通りに生成してくれたようです。ただ、なぜかRecraftとFireflyは、ワンちゃんを描いてくれませんでした。

デザイン的な好き嫌いはあると思いますが、こちらも、すべてのモデルで概ねプロンプトの指示通りに生成してくれました。

意図したイメージに一番近かったのはMidjournyですが、Recraftは他の画像生成モデルと比べてアングルが独特ですね。SD 3.5、FLUX、Ideogramでは、天井照明の見え方が透視図法的におかしくなってしまいました。また、Fireflyは建築物として成立しておらず、どこがどうなっているのか判別できません。

全般的に階数(10階建て)までは正確には守られていませんが、中層のオフィスビルにはなりましたが、SD 3.5は建築物として不自然な形状となっています。また、Ideogramは、街を走る自動車が右側通行なのか左側通行なのかよくわかりません(ぶつかりそう)し、相変わらずFireflyは目地などが歪んでいて見ていて気持ちが悪いですね。

FLUXが意図したイメージに近いのですが、Midjourneyの陰影のある雰囲気も、東京・丸の内界隈みたいで悪くないですね。あと、やはり、RecraftやFireflyは点景の人間がまともに生成できておらず、Fireflyは石畳の目地も歪んでいます。

ユニークなデザインのリゾートホテルを生成したかったのですが、建築物としては成立しにくく、また、デザイン的にもさほどイケてない、中途半端な感じになりました。その中でも、Fireflyはプロンプトの指示をあまり反映しておらず、建築物としてもあちことで破綻してしまっています。

新国立競技場のザハ・ハディド案をイメージしつつ生成してみましたが、プロンプトの指示もあまり良くないようで、全般的にあまりユニークなデザインのスタジアムにはなりませんでした。RecraftやFireflyは屋根やフィールドの形状が破綻してい るのと、周辺環境で言えば、SD 3.5は少なくとも東京都心には見えないですね。
まとめ
2024年7月以降にリリースされた新しい画像生成モデルは、生成するものによって得手・不得手はあるものの、高品質な建築画像を生成してくれるので、出力したいデザインの傾向や生成するものによって、最適なモデルを選択するのが良いですね。
Artificial Analysis の画像生成モデルランキング(ELOスコア)で最高点となった「Recraft V3」は、パースペクティブが歪みがちで、点景となる人の形も崩れてしまうことも多く、個人的には少し期待外れの結果となりました。
人物などの描写や文字入れは強いようなので、広告やロゴ、パッケージデザインなどのデザインワークに向いている画像生成モデルと感じます。
他の画像生成モデルよりリリース日が若干古い「Firefly Image 3」は、建築画像の生成という観点からすると課題が多く、柱や梁が直交せず、階が途中で消失したり、現実ではありえないような納まりになる傾向があります。
また、目地や透視図法も歪んでしまうことが多く、建築物の生成が苦手な印象で、点景となる人の形(動物なども)も崩れ勝ちでした。
画像生成モデルによってプロンプトの記述方法にコツがあったり、プロンプトへの応答性が異なるので、単純に同じプロンプトで比較すると有利・不利が出る可能性はあるものの、これからはカンマで区切った呪文のようなプロンプトではなく、自然言語で詳細に記述した内容が反映される画像生成モデルが主流になるのではないかと思います。