
Gemini API の Imagen 3 の使い方
以下の記事が面白かったので、簡単にまとめました。
1. Gemini API の Imagen 3
開発者は「Gemini API」を介して、Googleの最先端の画像生成モデル「Imagen 3 」にアクセスできるようになりました。このモデルは、最初は有料ユーザーがアクセスでき、無料層への展開がまもなく予定されています。
「Imagen 3」は、リアルな画像から印象派の風景、抽象的な構図、アニメキャラクターまで、さまざまなスタイルで視覚的に魅力的でアーティファクトのない画像を作成することに優れています。改善されたプロンプトフォローにより、優れたアイデアを高品質の画像に簡単に変換できます。全体として、「Imagen 3」はさまざまなベンチマークで最先端のパフォーマンスを達成ししています。「Imagen 3」は、アスペクト比、生成するオプションの数などを制御しながら、「Gemini API」で画像1枚あたり0.03ドルの価格設定でこれを実現します。
誤った情報や誤報と戦うため、「Imagen 3」によって生成されたすべての画像には、目に見えない「SynthID」透かしが含まれており、AIによって生成されたものとして識別されます。
2. Imagen 3 のギャラリー
「Imagen 3」のギャラリーは、次のとおりです。



3. Gemini API の Imagen 3 の使い方
以下のPythonコードは、「Gemini API」を使用して「Imagen 3」で画像を生成する方法を示しています。
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='a portrait of a sheepadoodle wearing cape',
config=types.GenerateImagesConfig(
number_of_images=1,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
生成された画像は、次のとおりです。

詳しくは「Gemini API開発者ドキュメント」を参照してください。スコア、方法論、および性能改善の詳細については、「技術レポート」の付録Dを参照してください。