【文字起こしAI】Whisperを使ってインタビューの発話録を作るぞ！

むぎ

2024年4月25日 14:38

はじめに

こんにちは！KDDIアジャイル開発センターのむぎです🙂
今回は、文字起こしAIである「Whisper」を使って、インタビューの発話録をサクッと作成してみた話です！

こんな方におすすめ✨
・KAGのデザイナーは何をしているのか知りたい方
・生成AIの業務での活かし方を知りたい方

自己紹介

KDDIアジャイル開発センターのUXデザイナー
2023年KDDIにUXデザインコースで新卒入社（KDDIにアジャイル開発センターに兼務出向中）

文字起こしって大変

発話録欲しいけど、文字起こし大変だよねーー
AIでいい感じに文字起こしてくれないかな

そんな先輩デザイナーの一言から、この試みは始まりました…

KAGは4月に待望の新入社員が入社され、多いに盛り上がっている最中です🔥デザインチームとしても新入社員研修をサポートすべく、WS形式のサービスデザイン研修を実施することに🎉

そこで私はWSで利用するペルソナの作成担当になりました！
WSのテーマが社内課題の解決だったので、社内のエンジニアをペルソナとすることに。それにあたって実際に社内エンジニアにご協力いただき、インタビューを行いました🏁

インタビュー終了後、ペルソナを作り始めるのですが、WSの構成上、発話録もあった方がいいのでは？という話に。ただ本番まで時間がないかつ、手作業で文字起こしする大変さもあって、採用するか迷っていました😕
そこで先輩が「AIでいい感じに文字起こしてくれないかな」と一言。そこで、ピン💡ときました！

以前からインタビュー動画から文字起こしをして効率化！というものをしたかったんですが、普段はクライアントワークをしているため、案件内のインタビューを気軽にAIに流すのはNG…ただ今回は社内という事もあり、絶好のチャンスが来た！いざ実践だ！！となりました🙌

いざ実践！！

今回Whisperを使うにあたって以下のサイトを参考にしました
詳しくはこちらのサイトをご覧ください🙆‍♂️

文字起こし実行

サイトを参考に以下のコードをGoogle Colaboratoryで実行

#whisperをダウンロード
!pip install git+https://github.com/openai/whisper.git

#whisperをインポート
import whisper

#largeモデルの読み込み
model = whisper.load_model("large")

#文字起こし
result = model.transcribe("インタビュー.mp3のパス")
print(result["text"])

今回文字起こしするインタビュー動画は
・デプスインタビュー
・実施時間は約1時間
というものでした

文字起こしの際は、録画動画をmp3形式に変換してからモデルにインプットし、whisiperのモデルは精度を重視してLargeを用いました！

文字起こし結果

【Whisper実行結果】(一部抜粋)

サッカーって自分でやるんですかそれとも結構見る系なんですか最近は見る方が多いですねはいやっぱりこの年になるとあんまり人数をサッカー集めるのも大変ですしフットサルやるのも意外とはいフットサルでも10人ぐらい必要ですししかも交代ってか疲れちゃうから5人5人だとしんどいんでですよね今見るのは何かどこら辺見るとかあるんですか?見るのはJリーグとかはい国内のJリーグで川崎フロンターレが好きなのでフロンターレの試合を見てますね

処理を待つこと16分…1時間のインタビューが約20000字のテキストに！
内容を見てみると、間違っているのは固有名詞や同じ単語の繰り返し程度で、全体的な精度は80~85%ぐらいでした！
想像以上に精度が高く、かなり助かる！

ChatGPTで話者分離

Whisperの出力結果は、インタビューの掛け合いがまとめられて1つのテキストになるので、このままだとインタビュアーとインタビュイーが混在してかなり読みにくい…そこで、文字起こししたテキストをChatGPTで話者分離してもらいました💪

今回は単純な作業なので、スピード重視でGPT3.5を選択し、以下のプロンプトを実行

次の {# ルール} を必ず守り、以下 {# スクリプト}への校正を行い、出力してください。

#ルール
・2人の掛け合いのように出力する
・登場人物の名前は""インタビュアー""と""インタビュイー""

#スクリプト
文字起こししたテキスト文字起こししたテキスト文字起こししたテキスト文字起こししたテキスト

【ChatGPTの回答】(一部抜粋)

話者分離の結果、かなり精度高く分離してくれました！
ただ一部分でインタビュアーとインタビュイーが逆になってしまう事もあったので、そういったところは手作業で修正しました🧐

仕上げに発話録作成

これまでの結果を使って、WSで配布する発話録を作成！
短時間で質の高い発話録を作成できたので、かなり満足🤩
実際に研修でも、受講者が違和感なく発話録を読みながらワークに取り組んでくれたのでミッションクリアでした👍

Whisperを使ってみて

今回初めて文字起こしAI「Whisper」を使ってみて、精度の高さに驚きました！この精度であれば今後も活用するシーンがあると思うので、どんどん利用していきたいと思います😏