Podcastの音声をWhisperで文字起こしして、ChatGPTで要約してみた
【追記】
この記事で、コードやYoutubeの動画で説明しています。
【追記終わり】
Podcastの音声をWhisperで文字起こしし、ChatGPTでテーマごとに要約してもらい、Podcastで話したことの概要を作ってみたという、記事タイトルそのままの内容です。
WhisperもChatGPTもとても簡単に使えるので、誰でもAIを使って音声の書き起こしと、その要約が簡単にできるようになったんだなーとすごいです。
Whisperで文字起こし
OpenAIのWhisperを使って文字起こしをします。
Colabotatoryで次のコードを実行するだけ、とても簡単です。
!pip install git+https://github.com/openai/whisper.git
import whisper
model = whisper.load_model("large")
result = model.transcribe("regonn&curry203.mp3", verbose=True, language='ja')
書き起こし結果は次のようになりました。
句読点も入っていますが、後の方は句読点が入らなかったので、もしかしたら長さの制限などがあるのかも?
「large」という一番大きいモデルですが、ColaboratoryのT4のGPUを使う環境で、31分の音声ファイルが7分で書き起こすことができました。
ちなみにColaboratoryのCPU環境だと、2時間40分ぐらいで書き起こすことができました。
急いでいなければ、CPUの環境でも問題はなさそうです。
ChatGPTで要約
書き起こしを、ChatGPTで要約していきます。文章が長いとダメなようなので、テーマごとに、要約していく。
無料版だと、なぜか進まなかったけれど、ChatGPTPlusだと問題なく進みました。
プロンプトは、今のところ次のツイートのようにしています。
書き起こした結果はこのnoteにまとめています。
全ての書き起こしや、要約はこのnotionのページにあります。
Podcastの概要
31分の音声を文字に書き起こした文字数は9700字でした。31分も話したのに、それぐらいなんだなーと。
これを今回の方式で、ChatGPTで要約すると、1666文字になります。
もう少し短くするとかやり方はありそうなので、もう少しうまい要約を目指してみたいと思います。
この内容は明日収録PodCast(Youtube Live)で話します。