Gemini 2.0 Flash Experimentalをさくっと使ってみる!
新しいSDKがリリースされていて、Pythonでありえないぐらい簡単に使えるようになっていたので、それを試してみます!
その前に、こいつは何者か。。
Gemini 2.0 Flash は、Gemini Developer API と Google AI Studio を通じて、実験的なプレビュー リリースとして利用できるようになりました。このモデルでは、新しい機能と強化されたコア機能が導入されています。
マルチモーダル ライブ API:この新しい API は、ツールを使用してリアルタイムのビジョンおよびオーディオ ストリーミング アプリケーションを作成するのに役立ちます。
速度とパフォーマンス: Gemini 2.0 では、1.5 Flash に比べて最初のトークン生成までの時間 (TTFT) が大幅に改善されています。
品質:ほとんどのベンチマークで Gemini 1.5 Pro よりも優れたパフォーマンスを発揮します。
エージェント機能の向上: Gemini 2.0 では、マルチモーダル理解、コーディング、複雑な指示の追跡、関数呼び出しが改善されています。
新しいモダリティ: Gemini 2.0 では、ネイティブ画像生成と制御可能なテキスト読み上げ機能が導入されています。
確かにこれはバージョンが2.0に変わるほどの大きな進化だ。。
それでは早速使ってみます!
PythonのSDKをインストール
pip install google-genai
そしたらもう、これだけで使えちゃうらしい。まじか。。
from google import genai
client = genai.Client(
api_key="YOUR_API_KEY"
)
response = client.models.generate_content(
model='gemini-2.0-flash-exp', contents='How does AI work?'
)
print(response.text)
うむ、ちゃんと使えましたね。
ただこれ、Flashという割にはインプット/アウトプットのトークン量が多い場合にそれなりに時間がかかる気がするんですよね。
みんな使いまくってるからなのかな。。
画像認識は?と思ったら、新しいSDKでは画像認識はできない感じなのかな?
古いほうでやってみる
古いSDKも入れて
pip install google-generativeai
あとは以下のコードがサンプルコードであったのでそのまま
from google import genai
import google.generativeai as genai
import httpx
import os
import base64
genai.configure(api_key="API_KEY")
model = genai.GenerativeModel(model_name = "gemini-2.0-flash-exp")
image_path = "https://pbs.twimg.com/media/GeiYIFAWEAAj5Q8?format=png&name=small"
image = httpx.get(image_path)
prompt = "何が映ってる?"
response = model.generate_content(
[
{'mime_type':'image/jpeg', 'data': base64.b64encode(image.content).decode('utf-8')}, prompt
]
)
print(response.text)
これだけで画像認識ができました!
ちゃんと読み取ってくれてますね。
Super Secret AGIって何なんだろうなぁ。
12日目に発表される。。?
マルチモーダルのAPIも使えるみたいなのですが、
WebSocketを使ったりとかで少し面倒な感じなので、それはまたいずれ。。