Googleの画像生成AI「Imagen3」（ImageFX）の使用経験

2024年9月8日 03:07

　こんにちは、Browncatです。
　Googleは8月28日、画像生成AIの最新バージョン「Imagen3」をリリースしました。
　Imagen3の画像を生成するための同社の画像生成AIサービスが「ImageFX」ですが、このImageFXをしばらく試用しましたので報告します。

Imagen3概要

　Imagen3の概要は、Googleの以下のサイト

によれば、

以前のモデルに比べプロンプト理解力が大幅に向上。自然な日常言語で書かれたプロンプトも理解するため、複雑なプロンプト・エンジニアリングを行わなくても、必要な出力を簡単に得ることができる
照明と構成が適切で、視覚的に豊かで高品質の画像を生成
テキストレンダリング機能の大幅な改善
データセット内の有害なコンテンツを最小限に抑え、有害な出力の可能性を減らすために、広範なフィルタリングとデータラベル付けを使用
Gemini app and web experience, ImageFX あるいは Vertex AI 経由で利用可能

　上記サイトにリンクされている「技術レポート」には、自他社のモデル（DALL-E 3、SD3、Midjourney 6、SDXL、Imagen2）との、嗜好、プロンプトと画像の整合性、視覚上のアピールを指標としたベンチマークが掲載されており、多くの場合Imagen3が他に比べ優れているとされています。

Imagen3とImageFX

　先述の通り、Imagen3の画像を生成するための画像生成AIサービスがImageFXです。
　ImageFXは1日の生成回数に制約があるものの（回数は明示されてはいない）、Googleのアカウントがあれば無料で利用できます。

Imagen3の特質

　Imagen3は非常にフォトリアルな画像が得られます。もちろん最近の他のプラットフォームやモデルでも綺麗なフォトリアル画像は得られますが、Imagen3は本当に現実にいる人物のような表現です。破綻もほぼありません。

　一方、Imagen3は表現規制が強烈なため、プロンプト記述の戦略を他モデルとは根本的に変える必要があります。
　具体的には、まずはなるべく少ない単語数で始め、規制に引っかかるまで、単語を徐々に増やししていくのがお勧めです。
　また、画像サイズは（原稿執筆時点では）ImageFXで生成する場合、1024x1024ピクセルの正方形に限られます。ほかのアスペクト比にも対応してほしいところです。

生成例

1.赤いドレスを着た女性

　最近のモデル・プラットフォームで、なるべく同一のプロンプトで生成して比較してみました。
　ImageFXで生成する画像サイズが1024x1024ピクセルの正方形に限定されるため、比較画像も同じアスペクト比としました。断りない場合、Imagen3と全く同一のプロンプトです。

【Imagen3（ImageFX）】

　モデルというより、隣の家にいそうな感じの人物像で、単にフォトリアルというだけでなく、背景含め臨場感があふれています。
　
プロンプト：

photo realistic and cinematic, the beautiful Japanese young woman like an idol in red evening dress is posing for photo in the art deco room

【FLUX.1 [dev]】

　Imagen3より大人な感じのモデルのような人物が生成されます。
　FLUX.1を採用しているXのGrok-2も同様です。

【Kolors（Kling）】

ここでは、画像生成AIサービス「Kling」で生成した画像を紹介します。プロンプトは上2つと同じ。

　人物像はFLUX.1と同様、Imagen3より大人な感じのモデルのような人物が生成されます。また光源の色温度がImagen3より高く出る傾向にあります。

【Midjourney 6.1】

　以前の記事でも述べましたが、Midjourney 6.1の生成結果はファンタジー系イラストの要素を若干含んでおり、ほぼ写真のように生成されるImagen3とは印象が異なります。

プロンプト：

photo realistic and cinematic, the beautiful Japanese young woman like an idol in red evening dress is posing for photo in the art deco room. shot by Canon EOS R5

【Stable Diffusion 3 (SD3) Large】

　解剖学的な破綻で有名になってしまったモデルですが、破綻がなければこのように綺麗に出ます。しかしImagen3はとにかく破綻がほぼないので、SD3には早急な改善が望まれます。　

プロンプト：

【Positive】 cinematic photo, the beautiful Japanese young woman like an idol in red evening dress is posing for photo in the art deco room. 35mm photograph, film, bokeh, professional, 4k, highly detailed
【Negative】 drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry, soft, deformed, ugly, (bad anatomy:1.5), bad collapsed arms, bad collapsed hands, Excessive decoration of costumes

【DALL-E 3（Microsoft Image Creator）】
　ここでは、ChatGPT4ではなく、Microsoft Image Creatorのほうで生成しています。

　以前からプロンプト理解度が非常に高い一方、フォトリアル系が苦手でした。いまではこの通り、綺麗なフォトリアルな画像を出せますが、リアリティはImagen3には及びません。

2.テキストの出力・カフェ「Browncat」

　最近の画像生成AIモデルはテキストレンダリングがきちんとできるようになっていて、Imagen3もそれを売りのひとつにしています。
　実際、下図のようにプロンプトで指定された文字が店名として反映されています。

プロンプト：

a young Japanese woman like an idol in a black and white cleavage maid cosplay with smile is posing In front of a western classical wooden cafe with sign “Browncat” in English.

　なお、テキストレンダリングの検証は、SD3とFLUX.1でも行っていますので、それぞれの結果は過去の記事をご覧ください。