Googleの画像生成AI「Imagen3」(ImageFX)の使用経験
こんにちは、Browncatです。
Googleは8月28日、画像生成AIの最新バージョン「Imagen3」をリリースしました。
Imagen3の画像を生成するための同社の画像生成AIサービスが「ImageFX」ですが、このImageFXをしばらく試用しましたので報告します。
Imagen3概要
Imagen3の概要は、Googleの以下のサイト
によれば、
以前のモデルに比べプロンプト理解力が大幅に向上。自然な日常言語で書かれたプロンプトも理解するため、複雑なプロンプト・エンジニアリングを行わなくても、必要な出力を簡単に得ることができる
照明と構成が適切で、視覚的に豊かで高品質の画像を生成
テキストレンダリング機能の大幅な改善
データセット内の有害なコンテンツを最小限に抑え、有害な出力の可能性を減らすために、広範なフィルタリングとデータラベル付けを使用
Gemini app and web experience, ImageFX あるいは Vertex AI 経由で利用可能
上記サイトにリンクされている「技術レポート」には、自他社のモデル(DALL-E 3、SD3、Midjourney 6、SDXL、Imagen2)との、嗜好、プロンプトと画像の整合性、視覚上のアピールを指標としたベンチマークが掲載されており、多くの場合Imagen3が他に比べ優れているとされています。
Imagen3とImageFX
先述の通り、Imagen3の画像を生成するための画像生成AIサービスがImageFXです。
ImageFXは1日の生成回数に制約があるものの(回数は明示されてはいない)、Googleのアカウントがあれば無料で利用できます。
Imagen3の特質
Imagen3は非常にフォトリアルな画像が得られます。もちろん最近の他のプラットフォームやモデルでも綺麗なフォトリアル画像は得られますが、Imagen3は本当に現実にいる人物のような表現です。破綻もほぼありません。
一方、Imagen3は表現規制が強烈なため、プロンプト記述の戦略を他モデルとは根本的に変える必要があります。
具体的には、まずはなるべく少ない単語数で始め、規制に引っかかるまで、単語を徐々に増やししていくのがお勧めです。
また、画像サイズは(原稿執筆時点では)ImageFXで生成する場合、1024x1024ピクセルの正方形に限られます。ほかのアスペクト比にも対応してほしいところです。
生成例
1.赤いドレスを着た女性
最近のモデル・プラットフォームで、なるべく同一のプロンプトで生成して比較してみました。
ImageFXで生成する画像サイズが1024x1024ピクセルの正方形に限定されるため、比較画像も同じアスペクト比としました。断りない場合、Imagen3と全く同一のプロンプトです。
【Imagen3(ImageFX)】
モデルというより、隣の家にいそうな感じの人物像で、単にフォトリアルというだけでなく、背景含め臨場感があふれています。
プロンプト:
【FLUX.1 [dev]】
Imagen3より大人な感じのモデルのような人物が生成されます。
FLUX.1を採用しているXのGrok-2も同様です。
【Kolors(Kling)】
ここでは、画像生成AIサービス「Kling」で生成した画像を紹介します。プロンプトは上2つと同じ。
人物像はFLUX.1と同様、Imagen3より大人な感じのモデルのような人物が生成されます。また光源の色温度がImagen3より高く出る傾向にあります。
【Midjourney 6.1】
以前の記事でも述べましたが、Midjourney 6.1の生成結果はファンタジー系イラストの要素を若干含んでおり、ほぼ写真のように生成されるImagen3とは印象が異なります。
プロンプト:
【Stable Diffusion 3 (SD3) Large】
解剖学的な破綻で有名になってしまったモデルですが、破綻がなければこのように綺麗に出ます。しかしImagen3はとにかく破綻がほぼないので、SD3には早急な改善が望まれます。
プロンプト:
【DALL-E 3(Microsoft Image Creator)】
ここでは、ChatGPT4ではなく、Microsoft Image Creatorのほうで生成しています。
以前からプロンプト理解度が非常に高い一方、フォトリアル系が苦手でした。いまではこの通り、綺麗なフォトリアルな画像を出せますが、リアリティはImagen3には及びません。
2.テキストの出力・カフェ「Browncat」
最近の画像生成AIモデルはテキストレンダリングがきちんとできるようになっていて、Imagen3もそれを売りのひとつにしています。
実際、下図のようにプロンプトで指定された文字が店名として反映されています。
プロンプト:
なお、テキストレンダリングの検証は、SD3とFLUX.1でも行っていますので、それぞれの結果は過去の記事をご覧ください。
他の生成例
Imagen3の他の生成例を、他のモデルとの比較をせずにいくつか掲載します。
なお、Xのコミュニティ「ImageFX's Prompt Lab.」にプロンプトを公開した画像については、プロンプトを併記しています。
1「自撮りする二人」
2「傘を差す女性」
傘が全く破綻なく表現されています。
3.「制服女子」
プロンプト:
4「水着」
プロンプト:
5「バレエダンサー」
6・7「日韓アイドル」
プロンプト(下記)の国籍を変えただけですが、衣装や髪型・メイクの違いが明確に表れています。
プロンプト:
8「画家」
プロンプト:
9「受賞」
プロンプト:
10「夏の終わり」
まとめ
Googleの画像生成AI「Imagen3」(ImageFX)を試し、フォトリアルな表現能力の高さを確認し、他プラットフォーム・モデルとの比較や、テキストレンダリングの検証もしました。
以上、長文にお付き合いくださりありがとうございました。