Gemini API でラジオ番組の音声からの文字起こしを試す
「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。
1. Gemini 1.5 Pro の 音声データ入力
「Gemini 1.5 Pro」で音声データでの入力が可能になりました。
サポートしているファイル形式は、次のとおりです。
2. ラジオ番組の音声の準備
今回は、「Claude 3」と「VOICEVOX」にラジオ番組の音声を作ってもらいます。
(1) 「Claude 3」に台本を書いてもらう。
(2) 「VOICEVOX」に読み上げてもらう。
完成したラジオ番組の音声 (wav) は、以下からダウンロードできます。
VOICEVOX : 四国めたん・ずんだもん
3. ラジオ番組の音声の要約
ラジオ番組の音声の要約手順は、次のとおりです。
(1) パッケージのインストール。
# パッケージのインストール
!pip install -q -U google-generativeai
(2) 左端の鍵アイコンで「GOOGLE_API_KEY」に自分の「APIキー」を指定してから、以下のセルを実行。
from google.colab import userdata
import google.generativeai as genai
# 環境変数の準備 (左端の鍵アイコンでGOOGLE_API_KEYを設定)
GOOGLE_API_KEY=userdata.get("GOOGLE_API_KEY")
genai.configure(api_key=GOOGLE_API_KEY)
(3) ラジオ番組の音声の準備。
左端のフォルダアイコンからファイル一覧を開いてColabにアップロードします。
(4) ファイルのアップロード。
Geminiのサーバにアップロードします。
# ファイルのアップロード
audio_file = genai.upload_file(path="sample.wav")
(5) 推論の実行。
# モデルの準備
model = genai.GenerativeModel("models/gemini-1.5-pro-latest")
# プロンプトの準備
response = model.generate_content(
[
"次のラジオの音声を日本語で要約してください。",
audio_file
]
)
print(response.text)
4. ラジオ番組の音声の文字起こし
ラジオ番組の音声の文字起こしの手順は、次のとおりです。
(1) 推論の実行。
# モデルの準備
model = genai.GenerativeModel("models/gemini-1.5-pro-latest")
# プロンプトの準備
response = model.generate_content(
[
"次のラジオを日本語で発言内容そのまま文字起こししてください。",
audio_file
]
)
print(response.text)
5. トークン数の確認
トークン数の確認の手順は、次のとおりです。
(1) トークン数の確認。
# トークン数の確認
model.count_tokens([audio_file])
total_tokens: 3808