Towards Streaming Speech Translation for Real-world Scenarios
2023年度研究会推薦博士論文速報
[自然言語処理研究会]
福田 りょう
(NTTコミュニケーション科学基礎研究所 研究員)
邦訳:実世界シナリオに向けたストリーミング音声翻訳
【背景】多言語コミュニケーションを支援する音声翻訳システムの実用化が期待される
【問題】リアルタイムな音声翻訳には長い音声の処理や音声認識の誤りなど実用上の課題が残る
【貢献】実用上の課題に取り組み,提案技術を組み込んだストリーミング音声翻訳システムを作成した
多言語コミュニケーションにおいて,音声を機械翻訳する音声翻訳技術は重要な役割を果たしており,音声翻訳システムは異なる言語を話す人同士のコミュニケーション支援,動画の翻訳字幕作成,会議の議事録作成などで利用されています.
音声翻訳に関する多くの研究は,発話単位で区切られた1~10秒程度の短い音声を正しく翻訳することに焦点を当ててきました.しかし,実際の音声は発話単位で区切られておらず,何十秒,何百秒と長く続くこともあります.そのような長い音声を一度に翻訳することは困難ですし,もし可能だとしても音声の終了を待って翻訳するためリアルタイム性に欠けます.そこで本研究では,音声を長さに限りがないストリームデータとして捉え,適切に分割しながらリアルタイムに処理するストリーミング音声翻訳システムの開発に取り組みました.
ストリーミング音声翻訳は長い音声をリアルタイムで処理するために重要な技術ですが,実用化に向けていくつかの課題が存在します.中でも本研究では2つの課題に焦点を当てました.
(1) 音声認識誤りの伝播
多くの音声翻訳システムは,元の言語の音声を書き起こしする「音声認識モデル」と,書き起こしを翻訳する「機械翻訳モデル」で構成され,このような仕組みはカスケードシステムと呼ばれます.カスケードシステムにおいて,音声認識モデルの書き起こしに誤りがあると,その誤りは後段の機械翻訳モデルに伝わり悪影響を及ぼします.この問題は「音声認識誤りの伝播」として知られています.特にストリーミング音声翻訳では,精度低下と引き換えに軽量化・高速化された音声認識モデルを用いる場合があり,より深刻な音声認識誤りの伝播が起こる可能性があります.そこで本研究では,音声認識誤りに強い機械翻訳モデルを作成するための学習手法を提案しました.
(2) 音声分割手法の精度不足
先ほど述べたように,長い音声を既存の音声翻訳システムで一度に翻訳することは困難です.その理由として,入力音声が長いほど必要な計算リソースが増大したり,単語の関係性の学習が困難になったりすることなどが挙げられます.これまで,長い音声を翻訳するために,事前に音声を分割する音声分割手法が研究されてきました.しかし既存手法では,過剰に音声を分割してしまう,リアルタイムな処理に適さないといった精度面での問題が目立ちました.そのため本研究では,まず通常の音声翻訳で高い翻訳精度を達成する音声分割手法を提案しました.次にその手法をリアルタイム処理に適した方法へ拡張(図左)し,最後に同時翻訳モデルと組み合わせてストリーミング音声翻訳システム(図右)を構築しました.
本研究では,長い音声ストリームをリアルタイムで翻訳するための実用上の課題に取り組み,提案技術を組み込んだストリーミング音声翻訳システムを作成しました.研究を通じてリアルタイムな音声翻訳システムの発展に貢献できたと考えています.
(2024年6月1日受付)
(2024年8月15日note公開)
ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
取得年月:2024年
学位種別:博士(工学)
大学:奈良先端科学技術大学院大学
ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
研究生活 ニューラル機械翻訳の登場で機械翻訳技術が大きく発展した一方,話し言葉の翻訳にはまだ課題が多いと感じていました.また,自然発話を高精度に翻訳する実用レベルのシステムを実現したいと思い,音声翻訳の研究を始めました.
博士課程での研究は思うように進まず行き詰まりを感じることも多くありましたし,今振り返れば視野が狭かったなと反省することもあります.しかし指導教員や研究室メンバーの助けのおかげもあって,全体として楽しい学生生活でした.博士課程は,研究を進める力だけでなく,自己理解を深めたり,もっとやりたいことを見つけられたりと研究職以外でも活かせる多くのことを得られる場所だと思っています.進学を悩まれている方にはぜひお勧めしたいです.