DeepL はGoogle翻訳を超える翻訳精度を誇り、あまり手直ししなくとも使える文章を出力してくれますので、情報発信している方、海外の情報を直接入手している方はすでに重宝していると思います。
「DeepL 活用まとめシリーズ」では使いこなしのための豆知識を紹介していきます。書きたいネタは結構ありますが、よい例に出会うまでは記事にしにくいため、良い例をまた見つけたときにその都度続編をかきます。
その③ 単語、文章の間に本来あるべきのスペース抜けを補って翻訳精度アップ!
ツイッターのAPIでBotを作ったりする場合の規約を読んでいたら、英文に間違いを見つけました。わかりますか?
そうです。この部分でした。
(as defined below).Your use of
文法的には文章の終わりにはスペースが1つか2つ必要なのですが、ありません。機械翻訳はこういう所で意外に融通が効かなかったりします。
機械翻訳ではトークナイゼーションという過程で単語と文章の切れ目を一つ一つ認識して分けないと行けないのですが、ピリオドというのは文章の中でもDonald J. Trumpとか普通に使われてしまうので単純にピリオドを見たら文章の終わりとも断定できないのです。
規約の文章なんてTwitterの法務部の人が何人も読み直して推敲してから公開してる文章だし、そんな単純ミスがあるわけがない!なんて思ったかもしれませんが、ありましたね。普通にありますよこういうの。
それではスペースを補う前後で訳出がどう変わるかを比べてみましょう。
・・・あれ?ほぼ実害ない違いだけでしたね(違う部分を太字にしました)。
DeepL先生は賢く、この程度の間違いは割と大丈夫な時もあるようです。
数ヶ月前まではこの辺りの間違いにはシビアだった気がするのですが、現在は割と改善されているようなのです。
しかし、やはり限度があります。
もっと酷い例を示します。
このテキストをnoteのエディターに貼ってから選択して、noteエディターの引用ボタンを押すとこうなります。
Lolまで含めて5段落あって、段落の間にあった空行が除かれています。それはそれで良いのですが、段落と段落の間にある改行記号をDeepL 先生は認識しないようです。そのために段落と段落の間にはなにもホワイトスペースがないという状況になり、誤訳が生じます。
この引用された文章をさらにコピーして、DeepL で翻訳したのがAで、引用ボタンを使う前のテレグラムからのクリップボードの内容をDeepLに直接渡したのがBです。
なんかAでは段落が詰まってるだけではないく、文章が減っていますね。笑もないです。
Aの内容を詳しくみてみると、Tulsi.Theの部分がくっついています。最後のLolも前の文章についちゃってますね。
基本的にDeepL先生の仕様では、くっついた後ろの文章は無視されるために文章が抜けて翻訳文も短くなっているのです。
やっぱりDeepL 先生も完璧ではなかったですね。
noteの引用ボタンは気をつけましょう!
#ご乱心