こんにちは!クオッカです。
AIを使った文字起こしの精度ってどれくらいなのだろう?
気になったので会社の事業発表の会議の録音データを使ってWhisperで文字起こしをしてみました。
会議はオフラインで行われたもので発表者とは少し距離があるので音声データも声が遠いデータを使ったという前提でどれくらい正確にできたかを見ていきたいと思います。
Whisperの使い方
私はエンジニアではないので、記事を参考にGoogel Colaboratoryを使用して文字起こししました。
この工程はまったくコードがわからなくても、誰でもできるレベルで簡単です。
Wisperのモデルごとのアウトプット
まずは記事に書いてある通りでBaseモデルで試してみました。
出力されたテキスト
これは何を言っているのか全然わからない…
AIもこんなものかと絶望しかけたのですが、調べてみるともっと精度が高いモデルがあった!
出力されたテキスト
Largeだとまあまあ精度が高いアウトプットがでてきました。でもこのままだとちょっと意味わからない部分も、、
ChatGPTに文章をリライトしてもらう
ChatGPTに文章がおかしい部分を修正してと聞いて、文字起こししたデータを送りました。
出てきたアウトプット↓
内容を端的にしてくれて文章も日本語のおかしいところが修正されました。
どこを修正したかも丁寧に教えてくれます。
結論
今回の音声データだとWhisperだけの文字起こしでも少し変なとこが多かったですが、ChatGPTを組み合わせて人間が最終確認すればで十分精度の高いアウトプットができると思います。
何よゼロから文字起こしするよりは圧倒的に早くできると思います。
文字起こしはクラウドソーシングでも募集が多い仕事なので、whisperのようなAIを使って大量にできるようにするのはありなのかもしれないですね!