3つのSpeech to Textを比較してみた|OpenAI、Google、Microsoft
Speech to Text(音声テキスト化)のモデル「Whisper」がOpenAIから公開されました。Speech to Textといえば、GoogleやMicrosoftからもAPIとして有償で提供されていますね。精度はどのくらい違うのでしょうか?
ということで、OpenAI(Whisper)、Google、MicrosoftのSpeech to Textの精度をそれぞれ比較してみます。
▍比較環境
Whisper
公式のPythonでの利用例をそのまま実行しています。なお、モデルは「large」を選択しています。
Google
次のデモサイトで実行しています。APIでも結果は同じでしょう。たぶん。
Microsoft
こちらもデモサイトで実行。
音声データ
つくよみちゃんコーパスを使います。
簡単そうなのと難しそうなのを1つずつ選びました。
▍比較①
まずは簡単めなパターンとして、「VOICEACTRESS100_065.wav」を使います。
原文
Whisper
「特異」が「得意」になっていますが、ほぼそのままです。
Whisperとまったく同じです。
Microsoft
ええと、割と違いますね…。「特異」は合っていますが。
▍比較②
今度や難しめなパターンとして、「VOICEACTRESS100_054.wav」を使います。一文がやや長いことに加え、固有名詞が多いです。
原文
Whisper
大きな誤りは「グレーヴセンド」だけで、他は良さそうです。
こちらは「シープシェットベイ」を誤りましたが、他は良い感じです。
Microsoft
うんと?今日は調子が悪いのかな?
真面目に考えると、APIで細かいパラメーターを調整する前提なのかもしれませんね。
▍おわりに
3つのSpeech to Textの精度を比較しました。WhisperのLargeモデルは有償のものと遜色ない水準ですね。すごい。
ちなみに、次のような記事も書いているので、Whisperをとりあえず動かしたい方はどうぞ。
これらの記事のほか、私たちのIT活用のメモが次のマガジンにあります。よろしければ覗いてみてください!