見出し画像

文字おこしをローカル環境で使いたい(5)

前回、VRAM 6GBあるGPUがあれば、実用的なことを確認できたWhisperですが、モデルによって文字おこしの精度が感覚的に異なることもわかりました。今回は、モデルによって精度がどの程度変わるのかという点で検証してこうと思います。(個人的な忘備録を兼ねています)


比較検証する元データ

今回は、自作AI用PC使用して、Whisperのモデルをそれぞれ試していきます。(PCスペックに関しては、以下のリンク先記事を参照してください)

音源については、正誤を確認するという点で既に文字おこしされている音源であることがポイントかと。(結果などを比較公開できるという点も)

色々と探した中で、条件に合うものが。意図は、ありませんが、下記の音声を使用することにしました。(野田元首相の追悼演説 : 23分45秒)
ちなみに検索でトップに出たものを採用しています。

一方で正解とするテキストは、以下を正解として、Whisperでの文字おこし結果と比較することにします。

ここでは、全文比較する訳にもいきませんので、演説の冒頭1分間を比較していきます。(文字おこし処理自体は、収録された演説の全てを実行)

文字おこし検証

一応、Whisperでリリースされているモデルを一通り検証してみました。改行は、正解文章と合わせる形で適宜修正していますが、誤字、脱字、変換の怪しい部分については、そのまま掲載しています。
比較できるよう、最初に正解記事次に文字おこし結果の順になります。

モデル"tiny"の検証

CPU処理も可能なモデルです。処理時間は、55秒でした。

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。

享年67歳。あまりにも突然の悲劇でした。

政治家としてやり残した仕事。次の世代へと伝えたかった想(おも)い。そして、いつか引退後に昭恵夫人と共に過ごすはずであった穏やかな日々。

すべては、一瞬にして奪われました。

朝日新聞デジタルより引用

ホイン議員、安倍産僧のとないかく総理大臣がそれを必要化、3日先行交車の応援にお届れたならけないNZ12、ハイドから10月下でいます
反送さきの病院で全力の休憩さちがほどこさる日本中の解敵を願う通説ないのにも行わしくなったわ不器の100とならなりました

去年617歳、あまりにも突然の低いでした

政治化としてやり残した仕事次の世代やと伝えたかった思い出そしていつかインタインに秋へ風人とともに凄す発出やったお大会なきゃなきゃいけない日々

全ては一瞬にして奪われました

Whisper Model "tiny"の文字おこし結果

最後の1行は、正解ですが、他は、聞き直して修正する箇所がほとんどであり、結果から内容を推察するのは、難しいと感じました。

モデル"base"の検証

こちらもCPU処理が可能なモデルです。処理時間は、57秒でした。

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。

享年67歳。あまりにも突然の悲劇でした。

政治家としてやり残した仕事。次の世代へと伝えたかった想(おも)い。そして、いつか引退後に昭恵夫人と共に過ごすはずであった穏やかな日々。

すべては、一瞬にして奪われました。

朝日新聞デジタルより引用

この総先の病院で、全力の休憩措置が施される。
日本中の回復を願う、通説な祈りも同じく、あなたは、不器の客となららました。

去年67歳、あまりにも突然の冷えきでした。

政治家としてやり残した仕事、次の世代は、伝えたかった思い、そして、いつか引退後に、秋へ不尽とともに、すごすはずであったおだやかな日々。

全ては一瞬にして奪われました。

Whisper Model "base"の文字おこし結果

冒頭部分が見事に抜け落ちていますが、tinyと比較すると、まだ内容がわかるような気がしますが、実用に向くかは、個々の判断で。

モデル"small"の検証

smallのVRAMリクエストは、~2GBです。処理時間は、1分40秒でした。

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。

享年67歳。あまりにも突然の悲劇でした。

政治家としてやり残した仕事。次の世代へと伝えたかった想(おも)い。そして、いつか引退後に昭恵夫人と共に過ごすはずであった穏やかな日々。

すべては、一瞬にして奪われました。

朝日新聞デジタルより引用

本院議員安倍順像元内閣総理大臣は、去る7月8日、参議選挙交差の応援に訪れた奈良県内で演説中に配合から重撃されました。
繁総先の美容院で全力の救命措置が施され、日本中の回復を願う通説な祈りも無駄しく、あなたは不機能客となられました。

去年67歳、あまりにも突然の悲劇でした。

政治家としてやり残した仕事、次の世代と伝えたかった思い、そしていつか引退後に秋絵夫人とともに過ごすはずであった穏やかな日々、

全ては一瞬にして奪われました。

Whisper Model "small"の文字おこし結果

誤字が物凄く多いですが、内容は、なんとなく理解できるかなと思います。

モデル"medium"の検証

mediumのVRAMリクエストは、~5GBです。処理時間は、2分45秒でした。

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。

享年67歳。あまりにも突然の悲劇でした。

政治家としてやり残した仕事。次の世代へと伝えたかった想(おも)い。そして、いつか引退後に昭恵夫人と共に過ごすはずであった穏やかな日々。

すべては、一瞬にして奪われました。

朝日新聞デジタルより引用

本位議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演じつ中に配護から銃撃されました。
搬送先の美容院で全力の救命措置が施され、日本中の回復を願う通説な祈りも虚しく、あなたは不器のお客となられました。

昨年、67歳、あまりにも突然の悲劇でした。

政治家としてやり残した仕事、次の世代へと伝えたかった思い、そして、
いつか引退後に秋江夫人と共に過ごすはずであった穏やかな日々、

全ては一瞬にして奪われました。

Whisper Model "medium"の文字おこし結果

モデルsmallと比較して、より理解できる内容であり、少し誤字が減ってきたように見えます。

モデル"large"の検証

largeのVRAMリクエストは、~10GBです。処理時間は、6分39秒でした。

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。

享年67歳。あまりにも突然の悲劇でした。

政治家としてやり残した仕事。次の世代へと伝えたかった想(おも)い。そして、いつか引退後に昭恵夫人と共に過ごすはずであった穏やかな日々。

すべては、一瞬にして奪われました。

朝日新聞デジタルより引用

本院議員安倍晋三元内閣総理大臣は去る7月8日参院選挙候補者の応援に訪れた奈良県内で演説中に背後から銃撃されました
搬送先の病院で全力の救命措置が施され日本中の回復を願う通説な祈りも虚しくあなたは不機の客となられました

去年67歳あまりにも突然の悲劇でした

政治家としてやり残した仕事次の世代へと伝えたかった思いそしていつか引退後に秋江夫人とともに過ごすはずであった穏やかな日々

すべては一瞬にして奪われました

Whisper Model "large"の文字おこし結果

正確さが出てきました。誤字もありますが、これは、日本語独特の傾向かもしれません。

モデル"turbo"の検証

largeのVRAMリクエストは、~6GBです。処理時間は、1分10秒でした。

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。

享年67歳。あまりにも突然の悲劇でした。

政治家としてやり残した仕事。次の世代へと伝えたかった想(おも)い。そして、いつか引退後に昭恵夫人と共に過ごすはずであった穏やかな日々。

すべては、一瞬にして奪われました。

朝日新聞デジタルより引用

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で、全力の救命措置が施され、日本中の回復を願う通説な祈りも虚しく、あなたは不機の客となられました。

去年67歳、あまりにも突然の悲劇でした。

政治家としてやり残した仕事、次の世代へと伝えたかった思い、そして、いつか引退後に、秋江夫人と共に過ごすはずであった穏やかな日々、

すべては一瞬にして奪われました。

Whisper Model "turbo"の文字おこし結果

largeと比較しても遜色のない文字おこし結果でした。VRAMがlargeより少なく済むので、実用に向いているのではないかと思います。

モデル"large-v2"の検証

VRAMリクエスト値は、不明ですが、14GB使用していました。処理時間は、4分31秒でした。

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。

享年67歳。あまりにも突然の悲劇でした。

政治家としてやり残した仕事。次の世代へと伝えたかった想(おも)い。そして、いつか引退後に昭恵夫人と共に過ごすはずであった穏やかな日々。

すべては、一瞬にして奪われました。

朝日新聞デジタルより引用

本院議員安倍晋三元内閣総理大臣は去る7月8日参院選挙候補者の応援に訪れた奈良県内で演説中に背後から銃撃されました

感想先の病院で全力の救命措置が施され日本中の回復を願う忠誠な祈りも虚しくあなたは不機の客となられました

去年67歳あまりにも突然の悲劇でした

政治家としてやり残した仕事次の世代へと伝えたかった思いそしていつか引退後に秋江夫人と共に過ごすはずであった穏やかな日々

全ては一瞬にして奪われました

Whisper Model "large-v2"の文字おこし結果

これまでの結果と比較しても、やや誤字や文字おこしミスが見られます。

モデル"large-v3"の検証

VRAMリクエスト値は、不明ですが、16GB使用していました。処理時間は、7分18秒でした。

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。

享年67歳。あまりにも突然の悲劇でした。

政治家としてやり残した仕事。次の世代へと伝えたかった想(おも)い。そして、いつか引退後に昭恵夫人と共に過ごすはずであった穏やかな日々。

すべては、一瞬にして奪われました。

朝日新聞デジタルより引用

本院議員安倍晋三元内閣総理大臣は去る7月8日参院選挙候補者の応援に訪れた奈良県内で演説中に背後から銃撃されました
搬送先の病院で全力の救命措置が施され日本中の回復を願う通説な祈りも虚しくあなたは不機の客となられました

去年67歳あまりにも突然の悲劇でした

政治家としてやり残した仕事次の世代へと伝えたかった思いそしていつか引退後に秋江夫人とともに過ごすはずであった穏やかな日々

すべては一瞬にして奪われました

Whisper Model "large-v3"の文字おこし結果

ほぼ漢字変換ミス以外は、ありません。(ひらがな読みだとほぼ合っていると思います)

モデル"large-v3-turbo"の検証

VRAMリクエスト値は、不明ですが、16GB使用していました。処理時間は、1分30秒でした。

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。

享年67歳。あまりにも突然の悲劇でした。

政治家としてやり残した仕事。次の世代へと伝えたかった想(おも)い。そして、いつか引退後に昭恵夫人と共に過ごすはずであった穏やかな日々。

すべては、一瞬にして奪われました。

朝日新聞デジタルより引用

本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選挙候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。
搬送先の病院で、全力の救命措置が施され、日本中の回復を願う通説な祈りも虚しく、あなたは不機の客となられました。

去年67歳、あまりにも突然の悲劇でした。

政治家としてやり残した仕事、次の世代へと伝えたかった思い、そして、いつか引退後に、秋江夫人と共に過ごすはずであった穏やかな日々、

すべては一瞬にして奪われました。

Whisper Model "large-v3-turbo"の文字おこし結果

処理時間は、速いのですが、turboとの違いがこの結果では、今一つ伝わらないかもしれません。

まとめ

日本語は、難しい言語と言われていますが、Whisperの不得意部分がなんとなく判ってきたような気がします。不得意部分を挙げると

  • 日本語のテキストとして、同じでも、イントネーションが違うと、言葉の意味が変わるもの。(例として : 〇痛切 ×通説)

  • 同様にひらがなの大文字、小文字の区別も怪しさがあります。 (例として : 〇病院[びょういん] ×美容院[びよういん])

  • ひらがな小文字の入る言葉も判別の難易度が高いようにも思えます。 (例として : 〇享年[きょうねん] ×去年[きょねん])

  • 普段あまり使用しない日本語は、変換ミスの可能性が高い。(例として : 〇不帰の客 ×不機の客)

  • 人物名については、致し方ないと思います。(例として : 〇昭恵夫人 ×秋江夫人)

このような不得意部分が判れば、文字おこし結果の手直しは、速くできるのかなと思います。今回の結果から見ると、VRAMリクエストが満たされればモデル"turbo"が一番良さそうな感じがしました。

その一方で、それぞれの結果を見て、気づいた方もいらっしゃるかもしれませんが、句読点が入るモデルと入らないモデルがあります。

今回は、読みやすさを重視し、適宜、改行を入れましたが、実際の結果では、改行すら入らないただの一行なのです。

もう少し、読みやすくする方法を次回、考えてみたいと思います。

いいなと思ったら応援しよう!