自動翻訳機は使い物になるか
令和3年記述
外国語が苦手な者にとって機械翻訳はまさに夢の言語処理技術だ。既に多くの人が利用しているという。
これまで機械翻訳の分野ではAIに文法などの言葉のルールを覚えさせ、論理的演繹的な手法で精度を上げようとしたが、失敗を繰り返した。
機械翻訳で有名な「グーグル翻訳」も当初その精度は使い物にならないレベルから、2016年頃にはその精度が急激に上がったという。深層学習(Deep Learning※)を本格的に導入したからだろう。グーグル翻訳のような統計的機械翻訳には学習のために大量の対訳データが必要だ。それは文法も語彙も学ばず、常識も身につけず、学習した対訳データと言語モデルに基づいて、一番よさそうな語の並びを出力しているだけだから、精度を上げるにはデータを増やすしかない仕組みになっている。
従来の機械学習では、パターン認識(分類)するとき、特徴量を人間が設計しコンピューターにあらかじめ教え込んでおく。ところが深層学習ではこういう面談な特徴量設計作業が不要となる。コンピューターが自動的に対象パターンの特徴量を抽出してしまう。正に機械学習にとって大きなブレークスルーだった。
実際にグーグル翻訳を使ってみると次のような誤りが出てくる※。
(入力)図書館の前で待ち合わせしませんか
(出力) Do not wait in front of the library
(図書館の前で待たないでください)
日本語の否定文と誤解された一例であり、入試なら零点である。
(入力)私は先週山口と広島に行った
(出力) I went to Yamaguchi and Hiroshima last week
正しい翻訳だが、山口が山口県ではなく、友人の山口君だったらどうか、誤訳になる。
(入力)私は先週山際と広島に行った
(出力) I went to Yamagiwa and Hiroshima last week. となる。
ここに意味を理解しないAIの機械翻訳の限界がある。会話文になると難易度が更に上がる。会話文は疑問文や応答文が多く、日本語では主語がしばしば省略される。
このような誤訳はその都度正しい対訳データを追加教育させることで改善されるが、他にも同様の誤りがどれだけあるかは誰にもわからない。
機械翻訳はグローバル化する社会にとっては不可欠なツールだと思うが、現状の意味を全く考えない機械翻訳を見ていると、ちょっとした翻訳の助けになっても、厳密さが求められる契約書、学術論文、各種製品のマニュアルなどでは実用に耐ええるレベルではない。
今後最大の課題は画期的なアルゴリズムを開発するがではなく、どのような方法で機械に学習させるためのデータを収集できるかである。ちなみに機械翻訳に必要なデータ数は対訳データ100万組では焼け石に水、1000万組集まれば大分よくなるだろう。どれだけ集めれば実用に耐えるかは誰にもわからない。
※1「人口知能は深層学習である」と揶揄されるようになった。深層学習は単なるプログラミングにすぎないのだが。もともと深層学習はニューラル・ネットワークと呼ばれる人間の脳の仕組を模倣した数学モデルである。人間の脳はニューロンと呼ばれる神経細胞で構成されている。人間の脳自体がニューロンのネットワークになっているから、それをプログラムとして模倣したのである。
深層学習は自動的に対策パターンの特徴を抽出してくれるように見える。画像にせよ、言語テキストにせよ、それらを認識するシステムは白紙の状態からスタートして、大量の訓練データをもとに学習を行い、訓練データの相互の相関性、規則性、周期性などから内部パラメータ値を定めて、答えを予測発見させるのである。その差異を減らす内部パラメータを調節するのが基本であり、実際には多段の層を深く重ねていくことから「深層学習(ディープラーニング)」と呼ばれる。
※2 事例はすべて新井紀子「AI VS 教科書が読めない子どもたち」(東洋経済 2018.2)から引用した。
以上