画像生成AI対決！建築画像生成16番勝負（2024.10.1版）

2024年10月11日 18:46

これまで同じプロンプトを使用して、様々な画像生成モデル（「FLUX1.1 [pro]」「Ideogram 2.0」「Midjoruney v6.1」「Imagen 3」）で建築画像を生成してきましたが、新たに「Stable Diffusion 3 Turbo」「Firefly Image 3」「DELL-E 3」を加え、16種類のプロンプトで比較してみました。

上段の「FLUX1.1 [pro]」「Ideogram 2.0」「Midjoruney v6.1」「Imagen 3」は、今年の7月～10月に公開された比較的新しい画像生成モデルで、下段の「Stable Diffusion 3 Turbo」「Firefly Image 3」「DELL-E 3」はそれ以前の画像生成モデルになっており、概ね Artificial Analysis の画像生成モデルランキング（2024年10月1日現在）順に並べています。

All metrics from artificialanalysis.ai as of Oct 1, 2024.

内観

プロンプトで意図したイメージは、FLUXやMidjourneyに近いのですが、Midjourneyは3層吹き抜けになっていないですね。下段のFireflyは、プロンプトのどこに引っかかったのかわかりませんが、生成ができませんでした。

Midjorneyのデザインはユニークですが、かなり暴れていてw 建築物として成立させるのが難しそうです。下段のSDやFireflyは、トップライトの窓枠が歪んでいて不安になりますね。

踊り場がなかったり、階高に対して段数が見合っておらず、画像生成AIとって階段は鬼門のようです。特に、下段のSDやFireflyは階段だけでなく、建築的にあちこちで破綻しています。また、FireFlyは人の形もが崩れてしまっています。

東京の街並みということで、FLUXとImagenは東京タワーらしきものが描かれていますが、他は街並みに東京らしさを感じられません。ただ、FLUXはなんだか上海タワー？みたいですが。下段のFireflyは階段の姿がやっぱりおかしいですし、人の形も怪しいです。DALL-Eはスカスカで論外ですね。

全般的に、空調機の数や位置がおかしいものが多いです。まあ、設計しているわけではないですからね。下段のSDやFireflyは目地が歪んでたり、建築的な納まりが不自然になってしまっています。また、DELL-Eはフローリングを貼っている方向が見ていて不安になります。

下段のSDやFireflyは透視図方が破綻していて、建築躯体とダクトや照明器具の間に歪みが生じていますし、相変わらずFireflyは人の形も崩れてしまっています。こちらもDALL-Eは論外ですね。安物の食堂みたいですw

こちらも、東京の街並みということで、FLUX、Midjorney、Imagenは東京タワーらしきものが描かれていますが、相変わらずFLUXはどこのタワーかわかりませんねw あと、下段のSDは工事現場の中にカフェがあるみたいです。

FLUXやMidjourney、Imagenの看板の文字が無国籍なのはご愛敬ですが、下段のDALL-Eは相変わらずリアリティに乏しく、SDは室内の情景なのに、雨で床が濡れているようです。

床にカーペットが敷かれていないもの（Imagen、Firefly）やプレゼントを配っているサンタクロースが描かれていないもの（Ideogram、Midjorney、Firefly）などがあり、全般的に、狙ったような画像が生成できませんでした。また、下段のSDやFireflyは、相変わらずトップライトの窓枠が歪んでいて不安になります。

すべてのモデルで、概ねプロンプトの指示通りに描かれているようです。ただ、なぜかFireflyだけが、ワンちゃんを描いてくれませんでした。

外観

デザイン的な好き嫌いはあると思いますが、こちらも、すべてのモデルで概ねプロンプトの指示通りに描いてくれました。まあ、相変わらずリアリティに乏しい、DELL-Eの一人負けでしょうかw

意図したイメージに一番近かったのはMidjournyですが、上段のモデル（FLUX、Ideogram）であっても、天井照明の見え方が透視図法的におかしくなってしうものがありました。あと、Fireflyは建築物として成立しておらず、どこがどうなっているのか判別できません。

全般的に階数（10階建て）までは正確には守られていませんが、中層のオフィスビルにはなりました。Ideogramは、街を走る自動車が右側通行なのか左側通行なのかよくわかりません（ぶつかりそう）。また、相変わらず、下段のSDやFireflyは目地などが歪んでいて気持ち悪いですね。

FLUXが意図したイメージに近いのですが、Midjourneyの陰影のある雰囲気も、東京・丸の内界隈みたいで悪くないですね。あと、やはり、下段のSDやFireflyは目地が歪んでいるし、Fireflyは人間がまともに描けていないです。

ユニークなデザインのリゾートホテルを生成したかったのですが、建築物としては成立しにくく、また、デザイン的にもさほどイケてない、中途半端な感じになりました。その中でも、Fireflyはプロンプトの指示をあまり反映しておらず、建築物としてもあちことで破綻してしまっています。

新国立競技場のザハ・ハディド案をイメージしつつ生成してみましたが、プロンプトの指示もあまり良くないようで、全般的にユニークなデザインのスタジアムにはなりませんでした。周辺環境で言えば、下段のSDやDALL-Eは、少なくとも東京都心には見えないですね。

まとめ

上段の比較的新しい画像生成モデルは、生成するものによって得手・不得手はあるものの、建築物として概ね破綻の少ない画像を生成してくれますので、出力したいデザインの傾向や生成するものによって、最適なモデルを選択するのがよさそうです。

一方、下段の画像生成モデルについては、最も旧い画像生成モデルである DALL-E 3 はともかくとして、建築画像の生成という観点からすると、Firefly Image 3は課題が多い印象です。

柱や梁が直交せず、階が途中で消失したり、現実ではありえないような納まりになったりしますし、目地や透視図法が歪んでしまうことが多く、建築物の生成が苦手な印象です。また、建築物だけでなく、点景となる人の形（動物なども）も崩れてしまいます。

画像生成モデルによってプロンプトの記述方法にコツがあったり、プロンプトへの応答性が異なるので、単純に同じプロンプトで比較すると有利・不利が出るとは思いますが、これからはカンマで区切った呪文のようなプロンプトではなく、自然言語で詳細に記述した内容が反映される画像生成モデルが主流になっていくと思っています。

画像生成AI対決！建築画像生成16番勝負（2024.10.1版）

内観

外観

まとめ

いいなと思ったら応援しよう！