建築ビジュアル CG AI 活用法⑫ ImageFX : 画像生成AI ブレイクスルー

2024年9月16日 08:00

こんにちは。STUDIO55技術統括の入江です。
AIを用いた建築ビジュアルの表現において、『日本の建築や風景が十分に反映されない』という課題があります。
これは、建築ビジュアルでAIを活用する上での根本的な問題でもあります。

「日本の建築」や「日本の戸建て住宅」といったシンプルなプロンプトでは、生成されるのは和建築や神社仏閣、和風料亭のような古風な空間が多く、しかもそれらもどこか「奇妙な」印象を与えるものがほとんどです。

日本固有の文化や建築に対する学習が、海外拠点で開発されるジェネレーティブAIの既存システムでは十分ではないため、これまでは日本国内での実用的な取り組みにおいても進めにくい状況がありました。

🔶ImageFX (Imagen 3)

次の画像をご覧ください。

どこにでもある日本のスーパーマーケットの日常写真に見えます。

じつはこの画像は、私がふらっと立ち寄ったスーパーでチェキしたわけではありません（笑）
Google の画像生成AI『ImageFX』で生成したAI画像です。

ImageFX は、これまでの画像生成AIにおける課題をブレイクスルーし、高精細な表現が可能な画像生成AIとして、先月(8月)最終週にアップデートされました。

Imagen 3 モデル

「ImageFX」 は、今年の2月にリリースされたGoogleの画像生成AIです。
その時点では、Google DeepMind の『Imagen 2 モデル』を搭載していました。現在世間で噂になっている ImageFX は、 Imagenシリーズの最新バージョン『Imagen 3 モデル』を搭載したものです。

Imagen 3 モデル は、Imagen 2 モデルで確立された最高品質の画像生成から、更に最新のディープラーニング技術を活用し、生成された画像のリアリティや自然さが飛躍的に向上されたものとして、業界で注目を集めているものです。
この最新技術を活用して、ImageFX ではより高精度かつリアルな画像生成や編集が可能となりました。これまでのAIでは不可能だった、”日本らしさ” の表現が可能なレベルにまで押し上げられています。

AI Test Kitchen の機能

ImageFX は、Googleが提供する最新AIテクノロジーを試せるプラットフォーム『AI Test Kitchen』の機能の一つです。

『Google AI Test Kitchen』は、2022年5月の「Google I/O」で初めて発表され、当初はモバイルアプリとして導入されました。このアプリは、同年8月にサインアップできるようになり、最初は米国で展開されました。
今年2月リリースの段階でも、日本では直接利用することができず、VPNサービスから使用するしかありませんでした。
その意味でも、今回のアップデートは本格的な展開を感じさせるものです。

『AI Test Kitchen』には、画像生成AI「ImageFX」の他に、テキストから音楽生成を行う「MusicFX」、テキストベースのコンテンツ生成「TextFX」が搭載されています。また、最新コンテンツとして、動画生成AI「VideoFX」といったラインナップが今後加わります。

使用について

現在(2024年9月16日)、「ImageFX」「MusicFX」「TextFX」は、誰でも無料使用が可能です。かなりの枚数を生成することが可能ですが、あくまで割り当ての上限は設けられていますので、ご注意ください。

すべてのユーザーがツールを試せるように、各ユーザーの 1 日あたりの生成数に上限を設けています。上限に達した場合は、別のツールを試してみるか、翌日に再度お試しください。

出典 : よくある質問

プロンプトは日本語対応にもなっているため、イメージをそのままテキスト打ちすることが可能です。しかし、最良の結果を得るには英語での使用がオススメとなります。
ちなみに、AI Test Kitchen は、日本語を含め、以下の言語をサポートしています。

アラビア語、ブルガリア語、カタルーニャ語、中国語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、フィリピン語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、ハンガリー語、イタリア語、日本語、韓国語、ラトビア語、リトアニア語、ノルウェー語、ペルシャ語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、タイ語、トルコ語、ウクライナ語、ベトナム語。

出典 : よくある質問

著作権について

ImageFXで生成した画像は、Google DeepMind が開発した「SynthID」という AIの出所を認証できるデジタル透かしが追加される仕組みを採用しています。これは、人間の目では感知できない透かし機能です。
また、生成画像には「IPTX メタデータ」が含まれ、詳細な情報がユーザーに提供される仕組みとなっています。

以前のコラムでも、GoogleのYouTubeに関するAI対策についてお伝えしました。不適切なコンテンツの生成を防ぐために、Googleは数々の取り組みと、多大な投資を行っています。

※AIの著作権については、また別機会でもお伝えしていきます。

🔷ImageFX 検証内容

先ほどの ”日本のスーパーマーケット” の生成画像から、ImageFXが日本の風景を生成できるAI であることは、すでにお分かりいただけたかと思います。

ただ、画像をよく見ると、文字がうまく生成されておらず、”それらしい” 表現にとどまっているのが見受けられます。

「ちゃんと生成されてないよ～」と鋭いツッコミを入れられた方もいることと思います（笑）

AIが文字表現に弱いというのは、AIを利用したことがある方なら誰もが知っている事実です。これは、人物生成時の指の本数と並んで、AIが抱える代表的な課題の一つです。

現在、生成AIは文字表現もほぼ正確に行えるようになっていますが、この点については非常にセンシティブな問題があると個人的に感じています。

私は以前、車関係のカタログ用背景の創作的なCG制作に携わっていました。それ以前のカタログ制作は海外ロケなどの撮影が一般的でした。しかし、背景に映り込む文字や標識などが原因で、すべての権利関係の許可を取る必要があり、その手続きが非常に煩雑はんざつであったと聞いています。CGの登場により、これらの課題をクリアしつつ、より自由な創作が可能になったのです。

CG制作によって、アクセスが難しい場所や架空のシチュエーション、人では不可能なカメラワークの表現ができ、さらに権利関係の許可取りが不要になる点などで、関係者から多くの感謝の言葉をいただいていました。
そのため、画像に映り込む文字は、特に被写体を限定する要素となるため、画像生成AIを用いる際には、ある種の ”ぼかし表現” が適切なのではないかと考えたりします。

これは、CGやAI技術の進化がもたらす新たな可能性を活用しながら、依然として注意を払うべきポイントが存在することを示しているのではないでしょうか。

理解すべきは、ImageFX は、けっして文字が表現できないというわけではありません。あくまで、プロンプト指定した文字は反映されます。
これは、AIを使用したユーザーが責任を持ってそのテキストを反映させることになるため、反映が可能になるものであると理解されます。

文字表現と点景人物表現(Flax.1との共通点)

以下は、「STUDIO55」の文字をプロンプト反映させた、様々なシーンでの反映テストです。

前回お伝えした画像生成AI『Flax.1』 で生成される建築空間では、人物表現が含まれることがありました。

その多くが背面ショットで、こちらを向いている人物の場合には、意図的に顔がぼかされていたことにお気づきでしたでしょうか？
これは、解像度が低いためではなく、あくまでプライバシー保護のため、使用画像の顔が特定できなく意図的に処理されています。

『Flax.1』 においても、ユーザーが入力したプロンプトであれば、文字の反映は可能です。あくまで、それ以外でAIが自動で生成したテキストに関して、”それらしい” 雰囲気で文字が潰されます。

文字や人物などで具体性を回避する生成は、このような最新のAIでは共通した仕様となっているようです。

ちなみに『ImageFX』で自動生成される人物点景は、”ぼかす表現” か、もしくは "ブラー表現" になる特徴が多く見られます。

プライバシー保護のための最新のアレンジ処理技術に感心させられます。

画像表現バリエーション

ImageFX では、単に ”クォリティがリアル” なだけにとどまらず、様々な画像表現が可能です。このプロンプト反映はとてもユニークで、表現内容によっていろいろと応用が利くものとなってきます。

先ほどの ”スーパーマーケット” を例にとり、どのような表現ができるかを、以下に参考として挙げておきます。

チェキ表現
ポラロイド写真の表現

フィルミック表現
生成画像そのものが昔風の雰囲気になります。

フィルム表現
アナログフィルムの表現

モノクロ表現
アーティスティックな白黒写真の表現

球体表現
魚眼レンズの表現

スケッチ表現
手書きのスケッチ表現

インク表現

水彩表現

油絵表現

アクリル表現

漫画表現

ドローイング表現
線画表現

上面ビュー表現
真上からの断面表現

色々と試すことで、更にユニークな表現ができそうです。
参考にしてください。

🔷日本的な風景の検証

”日本的” な表現がどこまでできるか、検証した内容を共有します。

作例1. 日本的な高層ビル群

作例2. 日本的なオフィスビル建築

作例3. 日本的なアパート・マンション建築

日本のアパートやマンションなど、よくある建築景観のテストです。

作例4. 日本のタワーマンションからの眺望

タワマンから見た眺望の生成テストです。風景に日本らしさがあるのがすごいですね。

作例5. 日本的な住宅建築

戸建て住宅は一番生成が難しいジャンルです。
単純なプロンプトだけでは建築外構の構えなど生成に難しい点が出てきます。ある程度の詳細なプロンプトでコントロールする必要があります。

作例6. 日本的なホテル建築

日本らしいホテルと言った場合、どういう画像が生成されるかテストした内容です。

作例7. 日本的なショッピングモール

海外にもイオンなどはありますが、やはり日本仕様とは印象が違うものです。あくまで ”日本的な” ショッピングモールが生成できるかのテストです。

作例8. 日本的な商店街と商業店舗

作例8. 日本的な旅館や食事処

旅館や料亭、または食事処などのテストです。

作例9. お祭りや屋台

作例9. 城郭

これぞ ”日本” なお城の表現テスト。

作例10. ジャパニーズフード

プロダクト的要素ですが、日本の食べ物にフォーカスした画像生成のテストです。

🔷日本の地域別イメージ生成

これほどリアルな生成が可能となると、日本各地の環境別のイメージがAIで生成できるのかも、テストしてみました。

作例1. 渋谷

作例2. 浅草

作例3. 道頓堀

作例4. 京都

作例5. 奈良

作例6. 札幌

これは本当にAIなのでしょうか？
作っていて怖くなります。
実物の写真を使っているようにしか見えません。

先日の『Flax.1』と合わせて、AI生成画像が写真にしか見えない時代がついに到来した印象です。中でも、『ImageFX』の生成画像は、”クォリティ” と呼ぶより、”リアル” と言った方が適切です。

『Flax.1』でも日本的な建築を生成することは可能です。しかし、ここまでの日常目線の表現は、『ImageFX』が圧倒的にリアルさを出してきます。

建築写真レベルの「Flax.1」
日常目線レベルの「ImageFX」

このような使い分けになるかと思います。

＊

今年の8月は、まさに画像生成AIにおける「革命月間」となりました。
新たな技術の進化が目覚ましく、AIによって生成される画像のリアリティやクオリティが、これまでにないレベルに達したことが明確になった月でした。

8月のこの進展は、画像生成AIの未来を示唆する重要なマイルストーンとして記憶されることでしょう。

これらの高度な画像生成技術が今後どのように応用され、次にどのような展開が待っているのか、非常に楽しみです。

この記事が参加している募集

#仕事について話そう

115,608件