Preventing Over-translation in Simultaneous Neural Machine Translation
2023年度研究会推薦博士論文速報
[自然言語処理研究会]
加納 保昌
((株)Tleez 代表取締役)
邦訳:同時ニューラル機械翻訳における過剰翻訳の防止
【背景】発話とほぼ同時に機械翻訳をしたい.
【問題】同時機械翻訳モデルの学習と推論にギャップがあった.
【貢献】自動生成したデータでモデルを学習し,ギャップを軽減させた.
グローバル化が進む中,異なる言語を話す人々とのコミュニケーションは日常的になってきた.特に国際会議や交渉の場面では,スムーズなコミュニケーションを実現するために通訳が不可欠である.通訳には「逐次通訳」と「同時通訳」の2種類があり,逐次通訳は話し手が一時話を止めるタイミングで通訳者が訳す.この方式では話の流れが常に中断されるため,スムーズなコミュニケーションを阻害してしまう.また,話し手は通訳が終わるまで待たなければならず,会議の進行が大幅に遅れがちである.一方,同時通訳は話し手が話している最中に,通訳者がリアルタイムで訳していく.発話と通訳に時間遅れがほとんどなく,会話の流れが中断されることはない.そのため,同時通訳はスムーズな意思疎通と効率的な会議進行に不可欠な手段となっている.同時通訳は高度な技術が要求されるため,訓練を積まないと難しい作業であり,高度な言語スキルを持つ同時通訳者を確保するのは容易ではない.
そこで,コストを抑えつつ高品質な同時通訳を実現する技術が求められている.機械翻訳技術を同時通訳に応用した「同時機械翻訳」がその1つの解決策として注目されている.従来の機械翻訳は文法ルールに基づく統計的な手法がメインであった.しかし,最近ではニューラルネットワークを用いたニューラル機械翻訳という手法が主流になり,従来手法に比べてより自然な訳文を出力することができる.
同時機械翻訳は発話の途中から翻訳を開始する必要があるため,発話の後半の文脈を利用することができない.よって,文を最後まで見てから翻訳する一般的な機械翻訳よりも,品質が落ちる傾向にある.このように,同時機械翻訳には発話内容を翻訳するまでの遅延を小さくしようとすると,翻訳の品質が落ちるというトレードオフがある.
従来の多くの研究では,文単位の翻訳用に学習されたニューラル機械翻訳モデルを同時機械翻訳に利用し,さまざまな推論の工夫が行われてきた.この翻訳モデルは,入力言語の文と出力言語の文の大量の対訳ペアから学習されている.しかし,同時翻訳の推論では,文の後半部分を見ずに翻訳するので,学習と推論にギャップがあった.その結果,推論時に文より短い前半セグメントを翻訳するたびに,文末表現などの不要な単語を含む長めの翻訳が出力されてしまっていた.
そこで,本研究では「Prefix Alignment」という手法を提案し,文の前半セグメントの対訳ペアを大量に自動生成し,その対訳ペアで翻訳モデルの学習をした.これによって,不要な単語の翻訳出力を軽減した.実際に同時機械翻訳モデルの翻訳品質と遅延の評価を自動で行い,その有効性を確かめた.
また,既存の遅延評価尺度では,より長い翻訳文を出力すると遅延をより小さく評価してしまうという,直感には合わない問題があった.そこで,長い翻訳が終わるまで次の翻訳ができないという遅延を考慮するため,「Average Token Delay (ATD)」という遅延評価尺度を提案した.実験により,参照となる遅延評価尺度ともATDは高い相関を持つことが分かった.
(2024年6月1日受付)
(2024年8月15日note公開)
ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
取得年月:2024年3月
学位種別:博士(工学)
大学:奈良先端科学技術大学院大学
ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
研究生活 経済学部出身だったので,大学院入学後の半年は,プログラミングの基礎を身につけたり,論文を数本読んだり,授業の課題をこなすのに必死だった.その後,長文の機械翻訳が難しいことに気がついた.そこで,長い文を短く区切って翻訳し,その結果をつなげる,「分割統治的ニューラル機械翻訳」を提案した.しかし,その改善は思った以上に大変で苦戦した.
そのときたまたま,同時機械翻訳のタスクに触れ,区切って翻訳する技術は,そのタスクとの相性が良いことが分かった.そこで研究分野を長文翻訳から同時翻訳へと変えた.同時翻訳の方がまだ研究が進んでいなくて,解決すべき問題が多く,研究成果が出始めた.「やる余地が大きく残っている領域」を選ぶのが,研究初心者には重要だと思った.
修士2年時には,研究を社会実装するため,起業した.研究と起業で求められる価値観や能力は違うので,両立は大変だった.今後は2兆円くらい稼いで,1兆円で研究所を作りたいと思っている.