音声から文字起こしをする精度の調査

讃良屋安明 (ｻﾗﾔﾔｽｱｷ)

2024年8月11日 10:29

音声を録音したファイルから、文字おこしをしなければならない場面があり、多数のアプリを調査してみたが、どうしても『手作業』が必要になる。

例えば、1つのフォルダに1000の録音済みファイルがあると、手作業も1000回行わなければならない。

正直、メンドクサイ。

そこで、音声をテキストに変換する技術を調査したところ、やはり、音声生成AIがヒットしてくる。

これは、調査してみる価値ありそうだな。

そう思い、今回は、OpenAI社のWisperをターゲットにして調査してみた。

はじめに結論

どのような録音を変換してみたか

次の私が話している録音ファイル（wavファイル）をWisperに託してみた。
（クリックすると音声が再生されます。音量にご注意ください。）

https://saratec.me/contents/wav2-1.wav

Wisperで処理した結果のテキスト

AI の進化は非常に速いペースで進んでいる分野です。大きく分けると、まずは初期の段階ではルールに基づくプログラムでAIを作っておりました。これはルールベースのAIと呼ばれ、あらかじめ人が決められたルールで機械が動作します。例えば、1950年にチェスのプロに勝ったAIがあるんですけれども、あのようなプログラムがこれに当たります。次に、~~1990年、2000年~~にかけてデータからパターンを学ぶ機械学習が登場します。ここで、AIは大量のデータを分析し、自動でパターンを学び取り、それに基づき判断を下すようになりました。例えば、手書き文字をOCRで読み込む機能とか、スパムメールを~~フリタリング~~するなどがこれに当たります。さらに、2010年代に入ると、真相学習というものが登場します。AIはこれにより、画像認識、自然言語処理、音声認識など、さらに複雑なタスクをこなせるようになりました。人間の脳を真似した多層のネットワークを使用しております。具体的な例だと、Googleの画像検索や自動翻訳、音声アシスタントなどがそれに当たります。これらの進化は、チップの性能構造やデータの蓄積、アルゴリズムの革新などが要因して成り立ってきております。

取り消し線を引いたところが、変換ミスの場所となります。

検証

~~1990年、2000年にかけて~~→1990年～2000年にかけて
音声では、1990年のあと、少し間をあけて2000年と話しています。ここは私の真意としては「1990年～2000年にかけて」この表現でした。さすがに察してはくれませんでした。

~~フリタリング~~→フィルタリング、チップの性能構造→チップの性能向上
この誤りは、私の滑舌の悪さからきているのでしょう。文脈からこれくらいならキチンと変換してほしいところです。

真相学習→深層学習
漢字変換のミス。音声生成AIなだけに、漢字変換まで求めてはイケないのかな。

といった感想です。しかし、どのミスも文脈から意味を読み取り察してもらえれば正しく変換できただろうと思います。そこは、文章生成AIではないので、専門分野ではないということでしょうか。

テキストをGPT4oに修正させる流れを追加

生成されたテキストをGPT4oに次のプロンプトを与えて処理させた。

次の文章のうち、誤字脱字または変換ミスがある箇所が何か所もあります。文章の内容を加味して、その流れから修正してください。
###
[出力された文章を挿入]

さすが、文章を専門に扱うAI、気になる点すべてを修正、プラスして、私の日本語の誤りまでも修正してくれました。

AI の進化は非常に速いペースで進んでいる分野です。大きく分けると、まず初期の段階ではルールに基づくプログラムで AI を作っておりました。これはルールベースの AI と呼ばれ、あらかじめ人が決めたルールで機械が動作します。例えば、1950 年にチェスのプロに勝った AI があるんですけれども、あのようなプログラムがこれに当たります。次に、1990 年から 2000 年にかけてデータからパターンを学ぶ機械学習が登場します。ここで、AI は大量のデータを分析し、自動でパターンを学び取り、それに基づき判断を下すようになりました。例えば、手書き文字を OCR で読み込む機能や、スパムメールをフィルタリングするなどがこれに当たります。さらに、2010 年代に入ると、深層学習というものが登場します。AI はこれにより、画像認識、自然言語処理、音声認識など、さらに複雑なタスクをこなせるようになりました。人間の脳を模倣した多層のネットワークを使用しております。具体的な例だと、Google の画像検索や自動翻訳、音声アシスタントなどがそれに当たります。これらの進化は、チップの性能向上やデータの蓄積、アルゴリズムの革新などが要因となって成り立ってきております。

修正した箇所をGPT4oより報告させると、次の箇所を修正していました。

修正した箇所：
「まずは初期の段階では」→「まず初期の段階では」
「人が決められたルール」→「人が決めたルール」
「1990年、2000年にかけて」→「1990年から2000年にかけて」
「スパムメールをフリタリングする」→「スパムメールをフィルタリングする」
「真相学習」→「深層学習」
「人間の脳を真似した」→「人間の脳を模倣した」
「チップの性能構造や」→「チップの性能向上や」
「要因して」→「要因となって」
以上が修正箇所となります。

さすがに賢い！と、思わず叫んでしまいました。
日本語においては、AIに負けてしまっていると痛感する今日この頃です。

どうでしたでしょうか？Wisperの性能を体験していただけましたでしょうか。

コストの事

この処理をしたプログラム（python）を1000回ぐるぐる回すと1000ファイルを自動で処理してくれそうですね。

実行して、あとは放置しておくだけ。

1000回人手でやるとコストはいくらになるかなと考えると、AIって便利ですよね安いですよねとなります。

ちなみにWisperは、今のところ無料
GPT4oは、今回のプロンプトだと、inputのトークン数が566、出力が、711(修正箇所も出力させたため)の合計1277トークンなので、0.006385ドル（$1=￥160で計算すると、1円くらい)
処理するサーバーをAWSやGoogleからレンタルしても月20ドル程度でしょうから、それを時間に直すと、Wisper+GPT4oの処理は10秒程度でしたので、ほぼ無料と言えます。

今回の処理の運用コストは1円。

1000ファイル、人間が耳で聞いて文字起こしするとなると、何日かかるでしょう。
1ファイルあたり、10分とすると・・・
【時間】
166時間＝1日8時間労働で約21日間（土日休みとして１か月です）
【お金】
最低賃金1054円で166時間働いていただくので＝17万4,964円です。

1000ファイル、音声生成AIで変換して、人が目で見て修正となるとどうなるでしょうか。

1ファイルあたり、5分とすると・・・
【時間】
83時間＝1日8時間労働で約10日間
【お金】
最低賃金1054円で83時間働いていただくので＝8万7,482円です。

AIを駆使すると、
【時間】
5時間半くらい
【お金】
1,050円くらい

AIを使える人が近くにいると、こんなにコスト削減できます。

今回のWisperの使い方、プログラムを全て公開しています。こちらの記事をご覧ください。

讃良屋安明公式ブログあります。お時間のある時に覗いてみてください。

会社のサイトはこちら