Whisperのlarge-v2モデルを30倍早く処理できる、Gladiaをすぐ試せる方法 Ver.2
こんにちは、Choimirai Schoolのサンミンです。
0 はじめに
2023年2月18日にGladiaに関するnoteを投稿して以来、GladiaのAPIにyoutube-audio-transcritpionのエンドポイントが追加されたことで、YouTubeの文字起こし作業がだいぶん簡単になっています。
今回のnoteではGladiaのAPIを使って、YouTube動画を文字起こしする手順について話します。
1 Gladiaが実行できるNotebook
GladiaのAPIキーを取得するだけで文字起こしが試せるGoogle Colab Notebookを用意しましたので参考にしてください。Gladiaのモデルは英語だけでなく日本語を含め90言語に対応してます。
上記のリンクをクリックしますと次のような画面が表示されます。Copy to Driveボタンを押して、ご自分のGoogle Driveに保存してから使うようにしてください。
2 実装手順①:APIキーの取得
Gladiaのモデルを利用するためにはAPIキーの取得が必要です。アルファテスト期間中は無料で利用できますので下記のページからまずアカウントを作成してください。
アカウントを作成しますとAccount detailsのページでAPIキーが確認できます。
APIキーをコピーし、Notebookの「x-gladia-key」の値として貼り付けてください。
3 実装手順②:文字起こしの実行
notebookにある下記セルでYouTube動画のURLとアウトプット形式を指定し、コードを実行します。notebookでは下記の動画をサンプルとして利用しています。筆者がChatGPTの活用法について、テレ東の理系通信で出演した際の映像です。
1時間の音源を処理するのに90秒前後かかります。
文字起こししたテキストのフォーマットとして現在(2023年2月23日)2つのファイル形式が指定できます。
■ json
■ srt
4 実装手順③:結果の確認
文字起こしの結果は下記のセルを実行しますとテキストとして確認できます。
左側にあるFilesには「response.json」のファイルも生成されますのでより詳細データを確認したい方は参考にしてください。
5 番外編:翻訳とサマリー
Google Colab Notebookの後半にはDeepLによる翻訳(①)とCohereを使ったサマリー機能(②)もあります。必要に応じて活用していただければ嬉しいです。
6 まとめ
Whisperの進化を見ているとリアルタイムでの文字起こしで活躍できる日も遠くない気がします。今回紹介させていただいたNotebookからですとGladiaのAPIキーさえあればWhisperを簡単に試すことができます。1時間のYouTube動画を2分あれば書き起こし+日本語訳ができて、どなたでも無料(アルファテスト期間中)で利用できますのでこの機会にぜひ!