日本音響学会発表報告

2024年9月19日 10:31

2024年9月4日（水）~9月6日（金）に第152回研究発表会が開催されました。
本学会でPoeticsからも音声認識の研究に関する発表を行いました。

本記事ではその内容について紹介します。

日本音響学会とは

日本音響学会は、音声・音響に関する学術的な研究や技術の発展を目的とした日本の専門学会です。英語名は「Acoustical Society of Japan (ASJ)」といいます。1948年に設立され、以来、音響に関するさまざまな分野で活動し、毎年、春と秋に開催されています。
日本で行われている音声・音響の学会では最も参加者の多い学会の一つです。

音声認識とは

音声認識技術とは、人が話す言葉をコンピュータが理解し、文字やコマンドに変換する技術のことです。簡単に言うと、コンピュータに「人の話す声を聞き取って、それを理解する力を持たせる技術」です。

音声認識は、日常生活の様々な場面で使われています。一例としては、

スマートフォンの音声アシスタント: 「OK Google」「Hey Siri」などの呼びかけに応じて、スマートフォンが天気を教えてくれたり、メッセージを送ったりします。
カーナビの操作: 車を運転しながら、「目的地をセットして」と話すと、カーナビが目的地を設定してくれます。
文字起こし: 会議の内容を録音し、それを文字に変換するサービスもあります。

Poeticsにおける音声認識の取り組み

Poeticsでは、2022年から自社で音声認識の技術を開発し始めました。現在はJamRollの一機能として使われており、認識精度に関しては社内実験においては、他社サービスと比べても良い結果を確認しています。

JamRollについてはこちらを参照ください。

研究内で取り扱った音声認識の課題

音声認識技術には様々な課題があります。
例えば、

工事現場など雑音が激しい環境でも正しく予測できるようにする
方言やイントネーションの違いがあっても正しく予測できるようにする

今回弊社の研究開発チームでは以下の問いに取り組みました。

固有表現などの日常生活では特定の場面でしか使われないレアワードに対しても正しく予測できるようにする

この課題に取り組んだ背景は、音声認識を含むAIは学習の際に用いたデータに登場しないもしくは登場頻度が低いデータに対しては良い精度を発揮することが一般的には難しいです。しかしながら、社会においては特定の業界や会社でしか使われない単語が一定数存在しており通常それらの単語は学習データに高頻度で登場しないため認識精度が低くなる傾向にあります。

音声認識の技術を社会生活の中でより多くの人に使いやすい技術にしていくためにはこの技術を解決することは非常に意義深く、また研究の観点からもチャレンジングの問いのため会社として取り組みました。

取り組み

今回の研究では以下の仮定を置きました。

学習データとして用いることのできるデータが大量にある。
学習データとしては、人間によって正解を付けたものではなくAIの結果（擬似ラベル）を用いる。
評価の際の用いるレアワードがどのようなレアワードかは学習時点では知らない。

上記の過程のもと、既存の音声認識のモデルのレアワードに対する精度を最適化するために、疑似ラベルのサブセットを選択する方法を調査しました。

具体的には、２つの指標に注目しました。

音声認識のモデルが予測する際に出力する予測に対する確信度を表す値
予測された文章に対して形態素解析した際の値

注目した理由としては、1つ目の音声認識のモデルが予測する際に出力する予測に対する確信度を表す値と音声認識精度の良さには相関があるからです。この値を用いることにより、音声認識結果が実際話されている内容と大きく異なることを防ぎ学習した際にハルシネーションが起こりにくくしています。
2つ目の予測された文章に対して形態素解析した際の値に関しては、なるべく長い文章を使うことのほうがより多くの情報を含んでいるため様々な単語を学習できる可能性があると仮定を置いたためです。

結果と今後の課題

実験では、学習データに使う時間の量とデータ選定の方法を変えて精度がどのように変化するかを確認しました。
データに使う時間の量としては、3パターンで270時間、1080時間、4320時間としました。これはそれぞれデータ選定する前のデータ量と比べて1%,4%,16%に相当します。
データ選定の方法も3パターン試しました。1つ目が音声認識のモデルが予測する際に出力する予測に対する確信度を表す値をより重視した場合、2つ目が予測された文章に対して形態素解析した際の値をより重視した場合、3つ目がランダムに選定した場合です。

結果は以下のようになりました。

各指標の最良結果は太字で表しています。また、学習ステップの合計が等しくなるように、データ量に応じてエポック数を変化させています。
表から以下のことが推察されます。

擬似ラベルにおいては、データは多いが品質は低いほうが、データは少ないが品質は高いより精度がより向上しやすい
音声認識モデルの結果の確信度を重視することによりCERがより向上する
形態素数を重視ことでレアワードのWERの精度がより向上する
ランダムフィルタリングが、最も良いCERとWERであった

今回の論文では、なぜランダムが最も良かったかについての考察までを行うことが出来なかったため、今後はデータの中身を調査し、統計的な差がなかったかの検定や、より良いデータ選定アルゴリズムを提案していくことで、精度改善の自動化に引き続き取り組んでいきます。