見出し画像

3つのSpeech to Textを比較してみた|OpenAI、Google、Microsoft

Speech to Text(音声テキスト化)のモデル「Whisper」がOpenAIから公開されました。Speech to Textといえば、GoogleやMicrosoftからもAPIとして有償で提供されていますね。精度はどのくらい違うのでしょうか?

ということで、OpenAI(Whisper)、Google、MicrosoftのSpeech to Textの精度をそれぞれ比較してみます。

▍比較環境

Whisper
公式のPythonでの利用例をそのまま実行しています。なお、モデルは「large」を選択しています。

Google
次のデモサイトで実行しています。APIでも結果は同じでしょう。たぶん。

Microsoft
こちらもデモサイトで実行。

音声データ
つくよみちゃんコーパスを使います。
簡単そうなのと難しそうなのを1つずつ選びました。

▍比較①

まずは簡単めなパターンとして、「VOICEACTRESS100_065.wav」を使います。

原文

レギュラーメンバーの顔写真をクリックした後に、ムービープレイヤー風に再生されるという、特異な形式となっている。

Whisper

レギュラーメンバーの顔写真をクリックした後にムービープレイヤー風に再生されるという得意な形式となっている

「特異」が「得意」になっていますが、ほぼそのままです。

Google

レギュラーメンバーの顔写真をクリックした後にムービープレーヤー風に再生されるという得意な形式となっている

Whisperとまったく同じです。

Microsoft

こちらみんなの顔写真をクリックした後に、こうディープレイヤー風に再生されるという特異な形式スピード。

ええと、割と違いますね…。「特異」は合っていますが。

▍比較②

今度や難しめなパターンとして、「VOICEACTRESS100_054.wav」を使います。一文がやや長いことに加え、固有名詞が多いです。

原文

裕福なニューヨーカー達は、グレーヴセンド、競馬場や、シープシェッドベイ、競馬場などに集い、海沿いの高級レストランや、ホテルを利用した。

Whisper

裕福なニューヨーカーたちは、グレーブ船道競馬場やシープシェットベイ競馬場などに集い、海沿いの高級レストランやホテルを利用した。

大きな誤りは「グレーヴセンド」だけで、他は良さそうです。

Google

裕福なニューヨーカー達はグレーブセンド競馬場やシープ HTB 競馬場などに集い海沿いの高級レストランやホテルを利用した

こちらは「シープシェットベイ」を誤りましたが、他は良い感じです。

Microsoft

給付ニューヨーカーたちは、クラブセンの競馬場は新婦セット、bk駐車場などにすごい銀座の高級レストランやホテルを利用した。

うんと?今日は調子が悪いのかな?
真面目に考えると、APIで細かいパラメーターを調整する前提なのかもしれませんね。

▍おわりに

3つのSpeech to Textの精度を比較しました。WhisperのLargeモデルは有償のものと遜色ない水準ですね。すごい。

ちなみに、次のような記事も書いているので、Whisperをとりあえず動かしたい方はどうぞ。


これらの記事のほか、私たちのIT活用のメモが次のマガジンにあります。よろしければ覗いてみてください!


いいなと思ったら応援しよう!