前回、VRAM 6GBあるGPUがあれば、実用的なことを確認できたWhisperですが、モデルによって文字おこしの精度が感覚的に異なることもわかりました。今回は、モデルによって精度がどの程度変わるのかという点で検証してこうと思います。(個人的な忘備録を兼ねています)
比較検証する元データ
今回は、自作AI用PC使用して、Whisperのモデルをそれぞれ試していきます。(PCスペックに関しては、以下のリンク先記事を参照してください)
音源については、正誤を確認するという点で既に文字おこしされている音源であることがポイントかと。(結果などを比較公開できるという点も)
色々と探した中で、条件に合うものが。意図は、ありませんが、下記の音声を使用することにしました。(野田元首相の追悼演説 : 23分45秒)
ちなみに検索でトップに出たものを採用しています。
一方で正解とするテキストは、以下を正解として、Whisperでの文字おこし結果と比較することにします。
ここでは、全文比較する訳にもいきませんので、演説の冒頭1分間を比較していきます。(文字おこし処理自体は、収録された演説の全てを実行)
文字おこし検証
一応、Whisperでリリースされているモデルを一通り検証してみました。改行は、正解文章と合わせる形で適宜修正していますが、誤字、脱字、変換の怪しい部分については、そのまま掲載しています。
比較できるよう、最初に正解記事、次に文字おこし結果の順になります。
モデル"tiny"の検証
CPU処理も可能なモデルです。処理時間は、55秒でした。
最後の1行は、正解ですが、他は、聞き直して修正する箇所がほとんどであり、結果から内容を推察するのは、難しいと感じました。
モデル"base"の検証
こちらもCPU処理が可能なモデルです。処理時間は、57秒でした。
冒頭部分が見事に抜け落ちていますが、tinyと比較すると、まだ内容がわかるような気がしますが、実用に向くかは、個々の判断で。
モデル"small"の検証
smallのVRAMリクエストは、~2GBです。処理時間は、1分40秒でした。
誤字が物凄く多いですが、内容は、なんとなく理解できるかなと思います。
モデル"medium"の検証
mediumのVRAMリクエストは、~5GBです。処理時間は、2分45秒でした。
モデルsmallと比較して、より理解できる内容であり、少し誤字が減ってきたように見えます。
モデル"large"の検証
largeのVRAMリクエストは、~10GBです。処理時間は、6分39秒でした。
正確さが出てきました。誤字もありますが、これは、日本語独特の傾向かもしれません。
モデル"turbo"の検証
largeのVRAMリクエストは、~6GBです。処理時間は、1分10秒でした。
largeと比較しても遜色のない文字おこし結果でした。VRAMがlargeより少なく済むので、実用に向いているのではないかと思います。
モデル"large-v2"の検証
VRAMリクエスト値は、不明ですが、14GB使用していました。処理時間は、4分31秒でした。
これまでの結果と比較しても、やや誤字や文字おこしミスが見られます。
モデル"large-v3"の検証
VRAMリクエスト値は、不明ですが、16GB使用していました。処理時間は、7分18秒でした。
ほぼ漢字変換ミス以外は、ありません。(ひらがな読みだとほぼ合っていると思います)
モデル"large-v3-turbo"の検証
VRAMリクエスト値は、不明ですが、16GB使用していました。処理時間は、1分30秒でした。
処理時間は、速いのですが、turboとの違いがこの結果では、今一つ伝わらないかもしれません。
まとめ
日本語は、難しい言語と言われていますが、Whisperの不得意部分がなんとなく判ってきたような気がします。不得意部分を挙げると
日本語のテキストとして、同じでも、イントネーションが違うと、言葉の意味が変わるもの。(例として : 〇痛切 ×通説)
同様にひらがなの大文字、小文字の区別も怪しさがあります。 (例として : 〇病院[びょういん] ×美容院[びよういん])
ひらがな小文字の入る言葉も判別の難易度が高いようにも思えます。 (例として : 〇享年[きょうねん] ×去年[きょねん])
普段あまり使用しない日本語は、変換ミスの可能性が高い。(例として : 〇不帰の客 ×不機の客)
人物名については、致し方ないと思います。(例として : 〇昭恵夫人 ×秋江夫人)
このような不得意部分が判れば、文字おこし結果の手直しは、速くできるのかなと思います。今回の結果から見ると、VRAMリクエストが満たされればモデル"turbo"が一番良さそうな感じがしました。
その一方で、それぞれの結果を見て、気づいた方もいらっしゃるかもしれませんが、句読点が入るモデルと入らないモデルがあります。
今回は、読みやすさを重視し、適宜、改行を入れましたが、実際の結果では、改行すら入らないただの一行なのです。
もう少し、読みやすくする方法を次回、考えてみたいと思います。