見出し画像

単語の合間にスペースを入れた時の機械翻訳問題

インターネット上で翻訳サービスをお使いになったことがあるかたは多いと思います。スマートフォン向けの翻訳アプリも増え、ゴールデンウィーク中の旅先で利用したというケースもあるかもしれませんね。
他方、日本語の文書の書き方として文書の訂正を整えるためにスペース(空白)を入れたものをいまだに見かけます。
これを機械翻訳した場合にどのような影響があるか、調べてみました。

"単語の合間のスペース"とは

ひとつの単語の間にわざわざスペースが入力されているのを見かける。体感としては以前より減ったとは思うが、なかなか駆逐されない。

例えば、次のようなものだ。(いまどき社内の案内はメールかイントラ掲示板といったものでお知らせするものだろうけど、そういった通達手法の話ではないのでご容赦ください)

この文書、複数の単語の見栄えを整える目的で単語の合間にスペースを使用している。
例えば総務部長の「情報太郎」氏や「開催日時」「場所」「講師」「申込方法」「注意」といった部分だ。見た目を整えるのであれば均等割り付け機能を使えばよい。

スクリーンリーダーで文書を読み上げたときに、見栄えを整えるだけの空白が音声読み上げに与える影響は、2018年4月27日のnoteに記した。

 開 催 日 
 議   題
 注   意
といった具合に、『開』と『催』と『日』の間に全角スペースを1つづつ、また『議』と『題』の間に全角スペースを2つ入れていれたものをスクリーンリーダーに読ませると「議題」は「ぎだい」、「注意」は「ちゅうい」と読まれたが「開催日」は「ひらくさいひ」になってしまった。

と紹介した。

では、この文書をインターネット上の機械翻訳サービスを利用したらどう翻訳されるだろうか。

調査に使った機械翻訳サービスと条件

インターネット上の機械翻訳サービスは、以下を利用した。なお機械翻訳についての説明はまた機があれば改めて‥。

Weblio 翻訳
Google翻訳
エキサイト翻訳
Bing翻訳
百度翻訳
Yanex
SYSTRAN

なお、URLを入れるとそのまま検索できるサービスとできないサービス、またSSLでは検索できないサービスもあるため、シンプルにスペースを挟んだ単語6つで調査することにした。

調査した言葉

 開 催 日
 議   題
 注   意
 講   師
 申 込 方 法
 情 報 太 郎(人名として)

調査方法

「開催日」「議題」「注意」「講師」「申込方法」「情報太郎」
以上6つの言葉をスペースを"a.入れたもの群"と"b.入れないもの群"に分けて対象の翻訳サービスで日本語から英語に翻訳する。

検索結果を比較し、"a.入れたもの群"と"b.入れないもの群"が異なる検索結果がどの程度あるか見る。

なお、この調査は各翻訳サービスの日本語から英語への翻訳の精度をみるのが目的ではなく、あくまでもスペースを入れたか入れないかで検索結果は変わるのかをみるのが目的である。

調査日

2018年5月9日

調査結果

a.入れたもの群

b.入れないもの群

noteはテーブルタグが使用できず、また画像巾がPCでも620pxに調整されるため表が小さくて見づらいかと思うがご容赦ください。

単純に見比べた時、a群とb群同じ翻訳結果だったのは、Weblio 翻訳、エキサイト翻訳、bing翻訳であった。

翻訳結果の一部、または全てが異なったのは以下の通り。
Google翻訳‥「申込方法」が異なった
百度翻訳とSYSTRAN‥6単語全て
Yanex翻訳‥「注意」を除く5単語

面白かったのは人名として入れた「情報太郎」の翻訳結果で、Information Taroになるのは想定内であったが、気になるのはa群の百度翻訳、Yanex翻訳、SYSTRANだ。スペースをいれなければInformation Taroになるが、百度翻訳に関しては"I love large ro"、Yanex翻訳では"Information fat energy"。

SYSTRANの人名検索結果

SYSTRANに至っては"Feeling information it is thick 郎"となってしまった。なおSYSTRANはスペースを入れることで翻訳結果が乱れてしまっているのが見て取れる。アメリカのSYSTRANの運営する翻訳サービスで、機械翻訳の老舗が運営している。Wikipediaによると

SYSTRAN(しすとらん)は1968年にPeter Toma博士によって設立されたもっとも古い機械翻訳会社のひとつであり[1]、また主要なその製品名でもある。同社はアメリカ国防総省と欧州委員会のために、幅広く貢献してきた。SYSTRANはAltaVista(現在はYahoo!の傘下)のBabel Fish[2]、Windows Live Translator[3]などに技術を提供した。

とのことなので、アメリカ国内での翻訳サービスとしては長く使われてきているだろう。日本語のサイトを英語に翻訳するさいにSYSTRANを使うとしたら、スペースを単語に挟んでしまう事で意味をなさない文章となっている可能性が想定できる。

百度翻訳の人名検索結果

百度翻訳で情報太郎さんがスペースを入れると"I love large ro"になってしまうのは、もともと中国語で「情」が「心情」や「感情」を表している。また「太」は「大きい」だ。それがなぜ"I love large ro"になってしまうのかは私には判らないが中国語の堪能なかた、もし思い当たることがあったらお知らせください。
ただ、これは日本語→英語の翻訳設定にした場合であり中国語→英語で「情 報 太 郎」を検索すると"Intelligence taro"という結果となる。

a.群とb.群それぞれを比較する

a.群では6つの翻訳サービス間で比較した際に翻訳結果に揺らぎが大きく、またb.群ではその差は小さいと言えるだろう。

特に人名や固有名詞にスペースを挟んで体裁を整えるのは翻訳結果に揺らぎが生じると考えられるので避けることが肝要。
(スペースを入れない話とは別になるけど、読み仮名が難しい人名や固有名詞については、フリガナをつけるなどしてそれと判るようにしておく。)

まとめ

たとえ日本語で書かれたウェブサイトであっても、日本語を母国語にする人だけが見ているわけではない。仕事や趣味などで検索しているうちに来ることもあるだろう。

漢字はそのものが意味がある。漢字の組み合わせで意味が何となく想定できることもある。スペースで分断しても母国語が日本語の者が一読した時に違和感を覚えないとしても、先の調査のように翻訳ソフトがまとまりとして認識せずに異なる翻訳をすることもある。また最初に取り上げたスクリーンリーダーでの読み上げでも問題を生じることがある。

なお、今回はスペースを取り上げたが、無意味な改行も同様の恐れがある。昨今はスマートフォンでウェブサイトを閲覧することも多いが、PCで見た時はちょうど良いところで改行したつもりでも、画面が小さいスマートフォンでは改行が見づらさ・読みづらさを招いていることも知るべきだ。

今回は機械翻訳について取り上げた。筆者がここで言いたかったのは、単に機械翻訳とスペースの問題であったり、ウェブアクセシビリティの問題というだけではなく、情報を受け止める側は刻々と変化しており、ウェブサイト構築時には適切であった対応が今はそうではなくなっていることもあるということを認識してほしい、ということだ。

構築時に描いたペルソナが今も同じとは限らない。日本語を母国語としていない人・高齢者・障害者、またスマートフォンやタブレット、室内か室外かなど、構築時には想定していなかったことも含めて見直してみよう。

蛇足

なぜこんなスペースで体裁を整えるやりかたをするかだが、オフィス系ソフトの使い方の問題もさることながら役所の場合は「公文書の書式」がかねてからあり、この文例そのままに作ろうとしてしまうこともあるだろう。

下図は「文部省あて公文書の書式」という手引きで学校や教職員等から文部省に文書を提出するときのルールブックみたいなものだ。文化庁のウェブサイトから見られる。

No.21 公用文の書き方資料集 文化庁

これに拠らずとも『ビジネス文書の書き方』の類本をみると似たようなことが書いてあるし、自分も社会人になったときなどに前任者の文書を参考にしたり先輩や上司から同様のことを教わった気がする。—『ビジネス文書の書き方』については社会全体が役所に倣ってのこともあるだろうけど。

マイクロソフトは自社のマイクロソフトの日本語表記ルール「ローカリゼーション スタイル ガイド」というものをサイトで一般公開している。
"3.1.14 Symbols & spaces"で

Spaces
Between characters, a space should be inserted as follows.
1. Between full-width and half-width characters
In principle, insert a half-width space.

と書かれている。

文字の間には、次のようにスペースを挿入する必要があります。
1.全角文字と半角文字の間
原則として、半分の幅のスペースを挿入します。(by Google先生)

ということらしいのだが、例を見ると

Chapter 3→第△3△章
Shift→Shift △キー
(△部分が半角スペース)

とのこと。私には謎ルール。これについてwanichanさんの日記"日本語と英数字の間に半角スペース入れるのはNGらしいよ。"で、

かつてMicrosoft MVPになったときにすっごく気になっていたことの一つとして、「なんでマイクロソフトの中の人って日本語と英数字の間に半角スペースを無駄に入れてるの?」ということです。

うんと、その理由は読みやすくするため、ですか。

とあった。

日経 xTECHの横山哲也の100年Windows「マイクロソフトの日本語表記ルール」で

昔から思うのですが、マイクロソフトの日本語表記ルールは実に奇妙です。現在は、広く一般に公開されていますので、ぜひ目を通してみてください。

とも。この記事2008年のものだが、その時からこのスペース挿入ルールは今に至っていることですね。

以上。すいません、まとめより蛇足の方が長くなりました。

参考

SSLでも使えるウェブページ翻訳サービス、ページ翻訳が使えなかったらこの2つを試して-やるぞうnet
マイクロソフト (PDF文書) "Japanese Style Guide" Published: June, 2017

(了)

ヘッダー写真 撮影地 ニュージーランド Wanaka ©moya

ここから先は

0字

¥ 100

期間限定!Amazon Payで支払うと抽選で
Amazonギフトカード5,000円分が当たる

この記事が参加している募集

最後までご覧いただきありがとうございます! 現在放送大学でPDFのアクセシビリティを卒業研究中。noteはそのメモを兼ねてます。ヘッダー写真はnzで私が撮影しました。 【ご寄付のお願い】有料noteの売上やサポートはnzクライストチャーチ地震の復興支援に使わせて頂いております。