見出し画像

一般的な機械翻訳より高精度な多言語化のために工夫しているポイント

はじめに

こんにちは、ももたけです。ナビタイムジャパンで多言語化を実施する部門に所属し、Inbound観光客向け多言語データ整備、運用について取りまとめを担当しております。
今回はナビゲーションサービスにおける翻訳技術について、ナビタイムジャパンが工夫していることについてお話しします。

多言語システムについて

ナビタイムジャパンでは、多言語化されたサービスとして「B to C」 から「B to B / B to G」と多方面で提供をしており、「駅名」や「スポット名」や「地図の注記」など多岐にわたるデータを多言語化しています。対応言語は英語・中国語(繁体)・中国語(簡体)・韓国語・タイ語の5言語です。
そこで工夫していることは下記の3点です。

  • 共通の翻訳システムを利用することによって翻訳の統一化ができる

  • データの拡充、更新をコントロールできる

  • 同じ名称でも翻訳結果を変更できる

同じ翻訳システムを利用することによって翻訳の統一化

共通翻訳システムの構成はAWSのDynamoDB、Lambda、API Gateway、Cloud Frontを用いて作成されています。Lambdaで日本語の解析を行い、DynamoDBに格納されている辞書データを参照することによって翻訳します。異なるサービスであっても共通した翻訳システムを利用して翻訳するため、統一化された翻訳になります。(以前はGoogle翻訳や社外翻訳など同じ単語でも別々の方法を用いて翻訳していました)

データの拡充、更新をコントロールできる

一般的な機械翻訳を用いて多言語化をしていた場合、結果のコントロールができません。有名な例であげると、Osaka Metroの「堺筋線」が「Sakai Muscle Line」に翻訳されていました。(正しくは「Sakaisuji Line」)この場合、機械翻訳が誤訳を修正することを待つか、個別にパッチを当てるしか修正する方法がありません。しかし、内製翻訳システムを利用した場合は、同じ多言語辞書が用いられた単語の翻訳をDynamoDBの更新によって一括で更新が可能です。これにより、間違った翻訳になっていた場合でも、正しい単語に差し替えることが可能となります。

同じ名称でも翻訳結果を変更できる

「新宿小学校」という日本語を翻訳するにあたって、どのような翻訳が適しているでしょうか。「新宿」には「しんじゅく」「にいじゅく」「しんしゅく」「あらじゅく」などの沢山の読みが存在します。一般的な機械翻訳システムでは、「Shinjuku Elementary School」と翻訳するケースがほとんどです。そこで、ナビタイムジャパンの翻訳システムでは、日本語データとともに緯度経度を利用することによって適した翻訳を作成しております。葛飾区付近であれば「にいじゅく」で「Nijuku Elementary School」と翻訳します。

また、翻訳の利用箇所によっても翻訳結果を変えることができるようになっています。例えば「駒沢大学」の翻訳はどのようなものが適しているでしょうか。一般的な機械翻訳であれば「Komazawa University」と翻訳し、正解かと思われますが、間違っている場合もあります。駅の場合は「Komazawa-daigaku」だからです。


このような利用シーンで使い分けるためにナビタイムでは16の翻訳カテゴリを設けています。「住所関連」や「交通機関」や「教育施設」や「自然地名」などです。
「駒澤大学」の場合は「交通機関」に「Komazawa-daigaku」、「教育施設」に「Komazawa University」が登録されています。他にも「荒川」の場合は「住所関連」に「Arakawa」、「自然地名」に「Arakawa Riv.」が登録されています。

さいごに

ナビタイムジャパンでは「駅名」や「スポット名」や「地図の注記」など多岐にわたる日本語を一般的な機械翻訳より高い精度で翻訳できるように独自のシステムを構築して翻訳しています。この翻訳によって、来日した方がスムーズに移動できるように努めていきます。

最後までお読みいただきありがとうございました。