ゆるプロ!番外編「Whisperで音声認識して文字起こしをしてもらう」
ゆるいプログラミング講座、略して「ゆるプロ!」
これは気軽に気楽に試せるゆるーいプログラミング学習コンテンツである。今回のお題は「Whisperで音声認識して文字起こしをしてもらう」
一言)
とあるブログの記事を読んで、文字起こしの精度がすごそうだったので試してみたらすごかった。何よりGPUを積んでいないCPUのパソコンでも実行できることに感動した。なお、低スペックPCと呼ばれるPCでもいけたので、かなり汎用性は高いライブラリだと思う
事前情報
読み上げる文章を元に、自分の声を録音してみよう。Windows11であれば標準アプリのサウンドレコーダが使える。今回はWindows11で試した。自分の声で録音するのはイントネーションや発音の問題はあるため、音声合成ソフトウェアで編集するよりは手軽に試せる
例)Whisperで音声認識して文字起こしをしてもらう
import whisper
model = whisper.load_model("medium")
result = model.transcribe("rec.m4a",fp16=False)
print(result["text"])
結果)
飯坂温泉は、大湯、東北、地方有数の固湯であり、 古くはサバコの湯と呼ばれました。
奥羽、固湯、鯖湖は文字は表現として難しいが、発音の部分はよく読み取れている。もちろん、自分の録音した声、発音、イントネーションが悪い部分はあるかもしれない。それでも精度は比較的、高いといえる。
参考)
OpenAI Whisper Github
参考にしたブログ
おわり!