Gemini API の Imagen 3 の使い方

2025年2月7日 04:45

以下の記事が面白かったので、簡単にまとめました。

・Imagen 3 arrives in the Gemini API

1. Gemini API の Imagen 3

開発者は「Gemini API」を介して、Googleの最先端の画像生成モデル「Imagen 3 」にアクセスできるようになりました。このモデルは、最初は有料ユーザーがアクセスでき、無料層への展開がまもなく予定されています。

「Imagen 3」は、リアルな画像から印象派の風景、抽象的な構図、アニメキャラクターまで、さまざまなスタイルで視覚的に魅力的でアーティファクトのない画像を作成することに優れています。改善されたプロンプトフォローにより、優れたアイデアを高品質の画像に簡単に変換できます。全体として、「Imagen 3」はさまざまなベンチマークで最先端のパフォーマンスを達成ししています。「Imagen 3」は、アスペクト比、生成するオプションの数などを制御しながら、「Gemini API」で画像1枚あたり0.03ドルの価格設定でこれを実現します。

誤った情報や誤報と戦うため、「Imagen 3」によって生成されたすべての画像には、目に見えない「SynthID」透かしが含まれており、AIによって生成されたものとして識別されます。

2. Imagen 3 のギャラリー

「Imagen 3」のギャラリーは、次のとおりです。

3. Gemini API の Imagen 3 の使い方

以下のPythonコードは、「Gemini API」を使用して「Imagen 3」で画像を生成する方法を示しています。

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='a portrait of a sheepadoodle wearing cape',
    config=types.GenerateImagesConfig(
        number_of_images=1,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

生成された画像は、次のとおりです。

詳しくは「Gemini API開発者ドキュメント」を参照してください。スコア、方法論、および性能改善の詳細については、「技術レポート」の付録Dを参照してください。