見出し画像

眠たい夜の音声認識

今日は久しぶりに音声入力を使っている。

使っている最中に気づいたのだが、この機能結構すごい。

今はテレビを見ながらこの入力をしているのだが、テレビの音声は認識されて文字になることがなく、テレビの音声とかぶすように喋っている自分の声はしっかりと文字になっている。

これはかなり画期的な気がする。このiPhoneのAIが、テレビの音声の声と人間が喋ってる時の声をどうにかして聞き分けているのだろうか。

自分が聞いたときで考えてみると、テレビの音声と言うのは大体BGMが付いていることが多い。もし喋っている声と同時に、何かしかのBGMが流れていたらそれはテレビからの声だと考えられる。

ただこの仕組みでいくと、誰かが喋っていて同時に何か好きな曲を流していたとしたら、テレビの声と人間が喋っている声の区別がつかないかもしれない。

もう一つ自分がテレビの声を聞くときに気にするかもしれないのは、その人が有名な人の声かどうかだ。

自分が知っているような有名人の声がどこかしかから聞こえていたら、それは本人がいるわけではなくてテレビか何かの映像の音声だと思うだろう。

ただこの理屈でいくと、有名人が部屋で自分のテレビを見ながらしゃべっている場合、AIが間違ってしまうと言うことになる。

つまりこれを実践するには、テレビで自分の声が流れるような人ではなければならず、自分ではいけないと言うことになるだろう。

と言うことで、どなたか喋りながら音楽を流す趣味のある方で、テレビに出て自分の声が流れるくらい有名な方検証してみてください。

そしてどちらでもないんだとしたら、後どうすればいいんでしょうかね。誰かこの機能の仕組みを教えてください。

眠すぎる夜なのでこんなくだらない文章しか思いつきませんでした。


この記事が気に入ったらサポートをしてみませんか?