見出し画像

ImageFXを試す:Google製画像生成AI

遅ればせながら使ってみたところ、期待を上回る品質に驚きました!
(この記事の下部に、いくつか作ったものを掲載しています。※最下部は懸念点として、センシティブなものを含むのでご注意ください。)

画像はImageFXで作成されたもの。全く加工せず、そのままの出力です。(2枚を横に連結はしました)

AI画像生成の進化はとどまることを知りません。この記事は、Googleの最新モデル「Imagen 3」で今更ながら遊んでみた内容となります。
いくつかテストを行ってみたところ、特に実写的な、フォトリアリズムの生成において、DALL-E 3を超える品質を実感しました。例えば、自然光を捉えた風景や複雑なテクスチャの表現力は、従来のそれらのモデルに比べて大幅に向上しており、細部まで緻密に描写されています。

技術的には、Imagen 3は潜在拡散モデル(Latent Diffusion Model)を採用しており、これにより高精度な画像生成が可能になっています。DALL-E、Stable Diffsuionと根っこは同じです。さらに、従来モデルで問題視されていた視覚的アーティファクト(ノイズや不自然な欠陥)を最小限に抑える設計が施されています。生成された画像は非常に洗練されており、特に細部まで丁寧に描写されています。

一方で、プライバシー面での懸念も浮上しています。GoogleはImagen 3の学習元について明確な説明を行っておらず、Googleフォトの個人写真データが使用されていないかどうかについては、はっきりとした情報が提供されていません。個人のデータがAIモデルのトレーニングに使用される可能性があるという疑念は、今後の利用における重要な課題となるでしょう。
(この辺は容量無制限の「Amazonフォト」も同様で、利用規約上ではユーザーの写真データがAIのトレーニングに使用される可能性が示唆されています。規約上、仮にGoogleがGoogleフォトのものを使用していたとしても、問題にはならないでしょう。利用規約に基づいて問題が発生しない仕組みが整えられています。)

このように、Imagen 3はその技術力で注目を集める一方、透明性の欠如がユーザーに不安を与える要因となっています。仮に使用しているのであれば明言すべきですし、また、後からでもオプトアウトできるようにすべきだとは思います。

加えて、懸念としてはあまりに品質が良すぎるため、実際の写真と誤認するリスクがさらに高まるでしょう。特に、誤っていても分かりにくいもの、たとえば歴史的な遺物やリアルタイムに発生している災害等では、より注意が必要だと感じました。

使い方

非常に簡単です。以下サイトにアクセスしてGoogleアカウントでログインするだけです。無料で使用でき、スマホからも利用できます。

「Googleでログイン」をクリック

プロンプトは英語が推奨されています。単純な英語でよく、それが難しい場合はdeepl翻訳を使用すると良いでしょう。

スマホから使用したイメージ

作った作品

そのままの出力です。(Photoshop等で一切弄っていません。)

「日本のアイドル」で作成されたもの。nvidiaに居そう。
プロンプト:Japanese idol during a concert making a peace sign. Please make the image as shown in the picture.
どこかにいそう。
プロンプト:Japanese idol during a concert making a peace sign. Please make the image as shown in the picture.
シンプルなプロンプトでもエモい画像が作れる。
プロンプト:Take a photo at an amusement park
ぱっと見ありそうな電車。
プロンプト:Trains during commuting and school hours
車内。ぱっと見違和感はありませんが、よく見るとシート幅が気になる?
プロンプト:Trains during commuting and school hours and their interior
外観と車内。そのままの出力です。
プロンプト:Trains during commuting and school hours and their interior
非常に爽やか。清潔感の擬人化。
プロンプト:Idol with long black hair on location in town.
魚眼も良いですね!
プロンプト:Idol with long black hair on location in town.
食レポ。
プロンプト:Female idol with a nice smile and wavy hair who eats on location in town.
😺
プロンプト:Cat on street corner, looking relaxed
😺🍙
プロンプト:Cat on street corner, looking relaxed, being fed by human.
🐈🐈‍⬛
プロンプト:Cat on street corner, relaxing, cat getting food from cat.
🐱「さっきまで動いてました」
プロンプト:(再読み込みで消えました……以下全部そうなので省略)
6連勤目
11連勤目
猫の手を借りるための仕込み(ヘッドホンがいい味を出している)
近未来のファッション。髪がゲーミングPC。
和装とサイバーパンクの融合。
新しいファッションを考える際にも使えそうですね。
コスチュームとしてアリですね。暗い舞台で映えそう。


以下、センシティブな内容を若干含みますのでご注意ください。




余談ですが、センシティブな内容は生成されにくくなっているはずです。しかしながら、現時点でDALL-E 3よりも制限をバイパスできる印象を受けます。単に特定の単語、または並びでフィルターがかけられているだけではないかと推測してしまいます。
日常的なシチュエーションで、特定の対象を含む画像は生成できないことが確認できました。しかし、それとは別に水着姿や際どい画像の生成は可能でした。ただし、これらを生成した場合、利用規約違反によりアカウントが停止される可能性がある点にご注意ください。

世間一般に見れば問題ないですよね。TPOはわきまえる必要はあるでしょうけど。
参考までに、ChatGPT-4o経由で同じプロンプトを連携した場合、作ってくれない。
(この場合、そもそもChatGPT-4o側で弾いていますね。)

そういえばYouTubeは医療行為であれば良いとか、なんかそういう回避方法もありますよね。Googleの基準については依然として不明確な点が多いです。

「内容が露骨」だったため、こちらで画像を加工しています。
左:ImageFX(こちらで加工しています。一応。)
右;DALL-E 3(こちらは無加工です。)

左はアートとして考えれば間違いではないですが、画像生成AIとして見れば微妙かもしれませんね。その点、DALL-E 3はかなり厳格です。上記はほぼ同じプロンプトで作成させた結果となります。(しかし、子どもが使わないこと前提のサービスとして考えれば間違いではないのでしょうか。)

また、災害時のフェイク投稿にも懸念があります。以下、モザイクを全体にかけましたが、ぱっと見かなり本物に近いものが簡単に作れます。細部をよく観察すればその違和感には気づけますが、異常時にそこまで冷静になれるかは疑問です。
いずれにせよ、そういった懸念はより高まったと感じます。

DALL-E 3等と比べて、より見分けにくい印象は受けました。

いいなと思ったら応援しよう!