Gemini 2.0 Flash Experimentalをさくっと使ってみる！

2024年12月12日 12:05

新しいSDKがリリースされていて、Pythonでありえないぐらい簡単に使えるようになっていたので、それを試してみます！

その前に、こいつは何者か。。

Gemini 2.0 Flash は、Gemini Developer API と Google AI Studio を通じて、実験的なプレビューリリースとして利用できるようになりました。このモデルでは、新しい機能と強化されたコア機能が導入されています。

マルチモーダルライブ API:この新しい API は、ツールを使用してリアルタイムのビジョンおよびオーディオストリーミングアプリケーションを作成するのに役立ちます。
速度とパフォーマンス: Gemini 2.0 では、1.5 Flash に比べて最初のトークン生成までの時間 (TTFT) が大幅に改善されています。
品質:ほとんどのベンチマークで Gemini 1.5 Pro よりも優れたパフォーマンスを発揮します。
エージェント機能の向上: Gemini 2.0 では、マルチモーダル理解、コーディング、複雑な指示の追跡、関数呼び出しが改善されています。
新しいモダリティ: Gemini 2.0 では、ネイティブ画像生成と制御可能なテキスト読み上げ機能が導入されています。

確かにこれはバージョンが2.0に変わるほどの大きな進化だ。。

それでは早速使ってみます！

PythonのSDKをインストール

pip install google-genai

そしたらもう、これだけで使えちゃうらしい。まじか。。

from google import genai

client = genai.Client(
    api_key="YOUR_API_KEY"
)
response = client.models.generate_content(
    model='gemini-2.0-flash-exp', contents='How does AI work?'
)
print(response.text)

うむ、ちゃんと使えましたね。

ただこれ、Flashという割にはインプット/アウトプットのトークン量が多い場合にそれなりに時間がかかる気がするんですよね。
みんな使いまくってるからなのかな。。

画像認識は？と思ったら、新しいSDKでは画像認識はできない感じなのかな？
古いほうでやってみる

古いSDKも入れて

pip install google-generativeai

あとは以下のコードがサンプルコードであったのでそのまま

from google import genai
import google.generativeai as genai

import httpx
import os
import base64

genai.configure(api_key="API_KEY")
model = genai.GenerativeModel(model_name = "gemini-2.0-flash-exp")
image_path = "https://pbs.twimg.com/media/GeiYIFAWEAAj5Q8?format=png&name=small"

image = httpx.get(image_path)

prompt = "何が映ってる？"
response = model.generate_content(
    [
        {'mime_type':'image/jpeg', 'data': base64.b64encode(image.content).decode('utf-8')}, prompt
    ]
)

print(response.text)

これだけで画像認識ができました！

ちゃんと読み取ってくれてますね。
Super Secret AGIって何なんだろうなぁ。
12日目に発表される。。？

マルチモーダルのAPIも使えるみたいなのですが、
WebSocketを使ったりとかで少し面倒な感じなので、それはまたいずれ。。

Gemini 2.0 Flash Experimentalをさくっと使ってみる！

いいなと思ったら応援しよう！