BLEUとは
機械翻訳(Machine Translation)の評価をする指標としてBLEUというものがあります。言語モデルに関連する論文などを読むとよく出てくるのですが、どのような指標なのでしょうか。
今回の記事では、こちらの情報をもとにBLEUの仕組みについて解説します。
BLEUのアプローチ
BLEU誕生の理由
大量の機械翻訳を熟練した専門家が評価する場合、完了までに数日から場合によっては数か月かかる場合があります。 これはお金と時間のかかるプロセスです。
そこで2002年に発表された上述の論文は、自動で機械翻訳を評価する方法を提案しました。その方法による評価は、人間が行う評価とよく相関するようになっています。
自動なので専門家を雇う必要もなく、結果もすぐに出ます。つまり、 安くて速いです。
論文では、その手法をBLEU(Bi-Lingual Evaluation Understudy、バイリンガル評価代行)と呼んでいます。
二つの概念
BLEUにおいて中心となる考え方は、「良質な機械翻訳は人間による翻訳に近いものであるべきだ」ということです。
そこで、彼らは参考とするための翻訳(参考翻訳)の例をたくさん集めたデータセット(コーパス)を作成しました。また、機械翻訳と参考翻訳とを比べるための計算方法を定義しました。よって、品質の判断を数値で行うことが可能となりました。
この記事が気に入ったらチップで応援してみませんか?