Whisperのlarge-v2モデルを30倍早く処理できる、Gladiaをすぐ試せる方法
こんにちは、Choimirai Schoolのサンミンです。
【主なアップデート】
(2023.02.23)YouTube動画に特化したnoteへのリンクを追加
(2023.02.22)Google Colab NotebookにDeepL APIを追加
(2023.02.19)YouTube動画を追加
0 はじめに
2022年9月にリリースされ今も注目を集めている文字起こし用のモデルがOpenAIのWhisperです。今回のnoteではWhisperの中でも一番精度の高い、large-v2モデルを30倍早く処理させる方法を紹介させていただきます。
【追記:2023.02.19】手順をまとめたYouTube動画です。
1 Whisperの進化
■2022年9月22日のリリース
■2022年12月7日:large-v2モデルを公開
精度面において英語では5%、他の言語では10%までの改善が報告されています。
■2023年1月26日:HuggingFaceが処理スピードで大幅な改善を発表
■2023年2月15日:GladiaがWhisper large-v2を改善したモデルを発表
2 Gladiaが実行できるNotebook
GladiaのAPIキーを取得するだけで文字起こしが試せるGoogle Colab Notebookを用意しましたので参考にしてください。Gladiaのモデルは英語だけでなく日本語を含め90言語に対応してます。
上記のリンクをクリックしますと次のような画面が表示されます。Copy to Driveボタンを押して、ご自分のGoogle Driveに保存してから使うようにしてください。
3 実装手順①:APIキーの取得
Gladiaのモデルを利用するためにはAPIキーの取得が必要です。アルファテスト期間中は無料で利用できますので下記のページからまずアカウントを作成してください。
アカウントを作成しますとAccount detailsのページでAPIキーが確認できます。
APIキーをコピーし、Notebookの「x-gladia-key」の値として貼り付けてください。
4 実装手順②:YouTube音源のDL
GladiaのAPIを使って文字起こしをする方法には3つあります。
①ローカルのファイルを指定
②YouTubeの音源を指定
③Web上の音源を指定
今回のnotebookでは下記YouTubeの音源を利用しています。
Notebookに書いてある指示に従いセルを順番通りに実行してください。
Notebookから下記のセルを実行しますと右側にあるFilesパネルにtest.mp3ファイルが生成されていることが確認できます。
dl_yt("https://youtu.be/TNsv3VQEWy4")
5 実装手順③:文字起こしの実行
ファイルのアップロードが確認できましたら、notebookにある下記セルでファイル名を指定し、コードを実行します。1時間の音源を処理するのに約2分前後かかります。
6 実装手順④:結果の確認
文字起こしの結果は下記のセルを実行しますとテキストとして確認できます。
左側にあるFilesには「response.json」のファイルも生成されますのでより詳細データを確認したい方は参考にしてください。
7 番外編①:ローカルのファイルを指定
左側にあるメニューから「①Files」をクリックしますとFilesのパネルが表示されます。右クリックをしますと「②Upload」のメニューがあります。このメニューから該当音源をnotebookへアップロードできます。
8 番外編②:結果をChatGPTで確認
GladiaのAPIからは下記のようなJSON形式のファイルが返される仕組みとなっています。
ChatGPTは人には読みづらいデータでもテーブル形式でまとめることができます。表にまとめるときに使える指示文をシェアしますので参考にしてください。
9 まとめ
Whisperの進化を見ているとリアルタイムでの文字起こしで活躍できる日も遠くない気がします。今回紹介させていただいたNotebookからですとGladiaのAPIキーさえあればWhisperを簡単に試すことができます。1時間のYouTube動画を2分あれば書き起こすことができて、どなたでも無料(アルファテスト期間中)で利用できますのでこの機会にぜひ!