Geminiで外国語のPodcastを文字起こし、そして日本語に翻訳してみました
Geminiではオーディオやビデオのファイルをアップロードして文字起こしできるということで、試してみました。
外国語のPodcastの内容を文字起こししてそのまま翻訳してくれると便利だと考えたわけですが、レスポンスの速さに驚きました。
今のところ、無料だと一日 200万トークンまで利用できるみたいです。
50分のmp3、英語から日本語に翻訳させて、役85,000トークンでした。
次のウェブサイト情報によると、音声の場合は、1秒25トークン、1分1500トークンになるようです。
Gemini API を使用した音声機能の詳細 | Google AI for Developers
https://ai.google.dev/gemini-api/docs/audio?hl=ja&lang=python
使い方は、
1. 次のウェブサイトにアクセス。
Google AI Studio
https://aistudio.google.com/
2. 次の箇所をタップ。
「Incert assets such as images videos, folders, files, or audio」
3. メニューが表示されるので、ファイルをアップロードする場合は次をタップ。
「Upload file」
4. ファイルを選択して決定。
5. 次のテキストフィールドにプロンプトを入力。
「User text input type something」
たとえば「文字起こしして。日本語に翻訳して」など。
6. 次のボタンをタップ。
「Run」
後は結果を待つだけです。
これまで文字起こしさせたいときにはiOSのAikoアプリを利用していました。
翻訳させたい場合はさらにテキストの内容をコピペする手間が発生します。
Geminiであればその手間も省略できるので、今頃になってそのすごさを実感しました。
Google Geminiで7時間分の音声を一気に文字起こし。しかも無料!【プロンプト付】|本郷喜千
https://note.com/yoshiyuki_hongoh/n/n731104cc37af