見出し画像

66. 音の AI を試す

前回の記事                        次回の記事

はじめに

前回まで、Windows 系で音データを収集する方法を試してきました。今回からは、収集した音データに適用可能な AI を試していく事にします。

Speech Service を試す

先ずは、Microsoft Learn の Speech Service を試すことにします。
とっかかりとして、音声をテキスト化する Speech To Text から試すことにします。
この AI では、

  • 音声テキスト変換

  • バッチ文字起し

  • テキストを音声に変換する

  • 音声翻訳

  • 言語識別

  • 話者認識

  • 発音評価

  • 意図認識

が可能とのこと。結構出来ること多いですね。この定期購読マガジンは、テーマが IoT なので、IoT でありそうなシナリオで使う機能だけを試していく事にします。
というかですね…多分、IoT 系の場合は音データといっても、とっかかりとしては、人の声がトリガーになるケースは少なくて、機械の音とか、何かのノイズ、異音等がトリガーになるんじゃないかと思うわけですね。そういった環境音が常時モニターされていて、何か起こってるぞ、という事象を認識した後に、現場にいるオペレータの注意を喚起し、そこで初めて、人の声を認識したり人に話しかけたり、という状況が出来るんじゃないかなと、いうのが私の見立て。そんな背景を意識して記事を書いていくので、そのつもりで読んでいってくださいね。

補足

「環境音が常時モニターされていて」とサラッと書きましたが、ここも、これまで記事で書いてきた技術要素を振り返れば、モニターを行う場所は、クラウド側、現場側の Azure IoT Edge 上のどちらかを使う事が出来ますと。
注目している事象発生から対応までがオンサイトで可能なら、IoT Edge 上で十分でしょうし、複数のロケーションの音データを統合しないと事象を検出できない場合はクラウド側での処理にしなければなりませんね。
その場合は常に、スケール可能な実装を心がけなければなりません。

Speech To Text を試す

先ずは、Speech To Text を試します。
音声を認識する方法 - Speech Service - Azure AI services | Microsoft Learn
を参考に作業を進めていきます。前回からの続きで、ファイル化された音源ファイルを使った方式を試すので十分でしょう。つまりは、https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/how-to-recognize-speech?pivots=programming-language-csharp#recognize-speech-from-a-file

をやってみるという事になります。
ドキュメントによれば、手順は、

ここから先は

19,018字 / 21画像

2022年3月にマイクロソフトの中の人から外の人になった Embedded D. George が、現時点で持っている知識に加えて、頻繁に…

この記事が気に入ったらチップで応援してみませんか?