ImageFXを試す:Google製画像生成AI
遅ればせながら使ってみたところ、期待を上回る品質に驚きました!
(この記事の下部に、いくつか作ったものを掲載しています。※最下部は懸念点として、センシティブなものを含むのでご注意ください。)
AI画像生成の進化はとどまることを知りません。この記事は、Googleの最新モデル「Imagen 3」で今更ながら遊んでみた内容となります。
いくつかテストを行ってみたところ、特に実写的な、フォトリアリズムの生成において、DALL-E 3を超える品質を実感しました。例えば、自然光を捉えた風景や複雑なテクスチャの表現力は、従来のそれらのモデルに比べて大幅に向上しており、細部まで緻密に描写されています。
技術的には、Imagen 3は潜在拡散モデル(Latent Diffusion Model)を採用しており、これにより高精度な画像生成が可能になっています。DALL-E、Stable Diffsuionと根っこは同じです。さらに、従来モデルで問題視されていた視覚的アーティファクト(ノイズや不自然な欠陥)を最小限に抑える設計が施されています。生成された画像は非常に洗練されており、特に細部まで丁寧に描写されています。
一方で、プライバシー面での懸念も浮上しています。GoogleはImagen 3の学習元について明確な説明を行っておらず、Googleフォトの個人写真データが使用されていないかどうかについては、はっきりとした情報が提供されていません。個人のデータがAIモデルのトレーニングに使用される可能性があるという疑念は、今後の利用における重要な課題となるでしょう。
(この辺は容量無制限の「Amazonフォト」も同様で、利用規約上ではユーザーの写真データがAIのトレーニングに使用される可能性が示唆されています。規約上、仮にGoogleがGoogleフォトのものを使用していたとしても、問題にはならないでしょう。利用規約に基づいて問題が発生しない仕組みが整えられています。)
このように、Imagen 3はその技術力で注目を集める一方、透明性の欠如がユーザーに不安を与える要因となっています。仮に使用しているのであれば明言すべきですし、また、後からでもオプトアウトできるようにすべきだとは思います。
加えて、懸念としてはあまりに品質が良すぎるため、実際の写真と誤認するリスクがさらに高まるでしょう。特に、誤っていても分かりにくいもの、たとえば歴史的な遺物やリアルタイムに発生している災害等では、より注意が必要だと感じました。
使い方
非常に簡単です。以下サイトにアクセスしてGoogleアカウントでログインするだけです。無料で使用でき、スマホからも利用できます。
プロンプトは英語が推奨されています。単純な英語でよく、それが難しい場合はdeepl翻訳を使用すると良いでしょう。
作った作品
そのままの出力です。(Photoshop等で一切弄っていません。)
以下、センシティブな内容を若干含みますのでご注意ください。
余談ですが、センシティブな内容は生成されにくくなっているはずです。しかしながら、現時点でDALL-E 3よりも制限をバイパスできる印象を受けます。単に特定の単語、または並びでフィルターがかけられているだけではないかと推測してしまいます。
日常的なシチュエーションで、特定の対象を含む画像は生成できないことが確認できました。しかし、それとは別に水着姿や際どい画像の生成は可能でした。ただし、これらを生成した場合、利用規約違反によりアカウントが停止される可能性がある点にご注意ください。
そういえばYouTubeは医療行為であれば良いとか、なんかそういう回避方法もありますよね。Googleの基準については依然として不明確な点が多いです。
左はアートとして考えれば間違いではないですが、画像生成AIとして見れば微妙かもしれませんね。その点、DALL-E 3はかなり厳格です。上記はほぼ同じプロンプトで作成させた結果となります。(しかし、子どもが使わないこと前提のサービスとして考えれば間違いではないのでしょうか。)
また、災害時のフェイク投稿にも懸念があります。以下、モザイクを全体にかけましたが、ぱっと見かなり本物に近いものが簡単に作れます。細部をよく観察すればその違和感には気づけますが、異常時にそこまで冷静になれるかは疑問です。
いずれにせよ、そういった懸念はより高まったと感じます。