ImageFXを試す：Google製画像生成AI

2024年9月16日 19:00

遅ればせながら使ってみたところ、期待を上回る品質に驚きました！
（この記事の下部に、いくつか作ったものを掲載しています。※最下部は懸念点として、センシティブなものを含むのでご注意ください。）

画像はImageFXで作成されたもの。全く加工せず、そのままの出力です。（2枚を横に連結はしました）

AI画像生成の進化はとどまることを知りません。この記事は、Googleの最新モデル「Imagen 3」で今更ながら遊んでみた内容となります。
いくつかテストを行ってみたところ、特に実写的な、フォトリアリズムの生成において、DALL-E 3を超える品質を実感しました。例えば、自然光を捉えた風景や複雑なテクスチャの表現力は、従来のそれらのモデルに比べて大幅に向上しており、細部まで緻密に描写されています。

技術的には、Imagen 3は潜在拡散モデル（Latent Diffusion Model）を採用しており、これにより高精度な画像生成が可能になっています。DALL-E、Stable Diffsuionと根っこは同じです。さらに、従来モデルで問題視されていた視覚的アーティファクト（ノイズや不自然な欠陥）を最小限に抑える設計が施されています。生成された画像は非常に洗練されており、特に細部まで丁寧に描写されています。

一方で、プライバシー面での懸念も浮上しています。GoogleはImagen 3の学習元について明確な説明を行っておらず、Googleフォトの個人写真データが使用されていないかどうかについては、はっきりとした情報が提供されていません。個人のデータがAIモデルのトレーニングに使用される可能性があるという疑念は、今後の利用における重要な課題となるでしょう。
（この辺は容量無制限の「Amazonフォト」も同様で、利用規約上ではユーザーの写真データがAIのトレーニングに使用される可能性が示唆されています。規約上、仮にGoogleがGoogleフォトのものを使用していたとしても、問題にはならないでしょう。利用規約に基づいて問題が発生しない仕組みが整えられています。）

このように、Imagen 3はその技術力で注目を集める一方、透明性の欠如がユーザーに不安を与える要因となっています。仮に使用しているのであれば明言すべきですし、また、後からでもオプトアウトできるようにすべきだとは思います。

加えて、懸念としてはあまりに品質が良すぎるため、実際の写真と誤認するリスクがさらに高まるでしょう。特に、誤っていても分かりにくいもの、たとえば歴史的な遺物やリアルタイムに発生している災害等では、より注意が必要だと感じました。

使い方

非常に簡単です。以下サイトにアクセスしてGoogleアカウントでログインするだけです。無料で使用でき、スマホからも利用できます。

プロンプトは英語が推奨されています。単純な英語でよく、それが難しい場合はdeepl翻訳を使用すると良いでしょう。

作った作品

そのままの出力です。（Photoshop等で一切弄っていません。）

「日本のアイドル」で作成されたもの。nvidiaに居そう。
プロンプト：Japanese idol during a concert making a peace sign. Please make the image as shown in the picture.

どこかにいそう。
プロンプト：Japanese idol during a concert making a peace sign. Please make the image as shown in the picture.

シンプルなプロンプトでもエモい画像が作れる。
プロンプト：Take a photo at an amusement park

ぱっと見ありそうな電車。
プロンプト：Trains during commuting and school hours

車内。ぱっと見違和感はありませんが、よく見るとシート幅が気になる？
プロンプト：Trains during commuting and school hours and their interior

外観と車内。そのままの出力です。
プロンプト：Trains during commuting and school hours and their interior

非常に爽やか。清潔感の擬人化。
プロンプト：Idol with long black hair on location in town.

魚眼も良いですね！
プロンプト：Idol with long black hair on location in town.

食レポ。
プロンプト：Female idol with a nice smile and wavy hair who eats on location in town.

😺
プロンプト：Cat on street corner, looking relaxed

😺🍙
プロンプト：Cat on street corner, looking relaxed, being fed by human.

🐈🐈‍⬛
プロンプト：Cat on street corner, relaxing, cat getting food from cat.

🐱「さっきまで動いてました」
プロンプト：（再読み込みで消えました……以下全部そうなので省略）

以下、センシティブな内容を若干含みますのでご注意ください。

余談ですが、センシティブな内容は生成されにくくなっているはずです。しかしながら、現時点でDALL-E 3よりも制限をバイパスできる印象を受けます。単に特定の単語、または並びでフィルターがかけられているだけではないかと推測してしまいます。
日常的なシチュエーションで、特定の対象を含む画像は生成できないことが確認できました。しかし、それとは別に水着姿や際どい画像の生成は可能でした。ただし、これらを生成した場合、利用規約違反によりアカウントが停止される可能性がある点にご注意ください。