![見出し画像](https://assets.st-note.com/production/uploads/images/81511675/rectangle_large_type_2_68389f2563d0db86faefdd1d7e5d4106.png?width=1200)
翻訳と一括置換と中国語
翻訳には用語集があることがあります。
専門用語であったり、社内用語であったり、人名であったり……
10や20個程度なら最初に覚えてしまえば済むのですが、案件によっては数百~数千、場合によっては1万以上の用語が登録されていることもあります。
また、簡単な用語だとしても会社によって用語を使い分けているものもありますし(例えばステークホルダーを”利益相关方”と訳す会社と、“利益相关者”と訳す会社があります)、読みが同じだと誤変換にもつながります(変換と返還など)。
こんなときに役立つのが「用語の一括置換」です。
用語集にある用語をすべて先に翻訳しておき、その結果を使いながら翻訳を進めるというやり方です。ただ、このやり方も注意して進めないと失敗することになります。
今回はその注意点について書きたいと思います。
1. 長い用語から訳す
例えば以下のような用語集があったとします。
ポイント > 积分
ポイント通算 > 累计积分
この用語集をそのまま「ポイント通算が50以上」という原文に当てはめたとしましょう。するとどうなるでしょうか。
まずは1行目の用語で置換が行われ、テキストは「积分通算が50以上」となります。
次に「ポイント通算」という用語に対して置換を行いたいのですが、「ポイント通算」というテキストはすでに残っていません。そのため、2行目は無視されて、「积分通算が50以上」というテキストが残ることになります。
もちろん、この状態でも役に立たないことはないですが、思っていた動作とは異なりますね?これを防ぐために、一括置換に使う用語は「原文の長さ順」にソートしておく必要があります。
2. 「トークン」を使う
中国語は日本語と同じく漢字を使う言語です。
もちろん字体が異なるものもありますが、中には同じ漢字も存在しています。
そのため、用語で置換した後のテキストに「短い用語」が予期せず含まれていることがあります。
これも例を見てみましょう。
上記の用語集に
分 > 分钟
という用語があったとします。すると、「累计积分が50以上」というテキストの「分」にも置換が実行されてしまい、最終的に「累计积分钟が50以上」という結果が出力されます。
これが多量にあると新たなミスのもとになるため、できるだけ排除しておきたいところ。そのため私は一旦「トークン」に変換するという手法を採っています。
具体的にはプログラム内部で以下のように一列追加しています。
ポイント通算 > {{1}} > 累计积分
ポイント > {{2}} > 积分
分 > {{3}} > 分钟
いったんすべての用語を、他の用語とぶつからないであろう一意の文字列(トークン)に変換します。すべての用語の変換が終わったところで、再度トークンを目的の用語に変換するのです。
この手法は2回用語の置換を行うため、計算量が2倍近くになってしまうのですが、重複して置換を避けられるメリットがあります(もちろん、正規表現を使って含まれているトークンのみを抜き出すなど、計算量を減らす工夫も必要でしょうが)。
中国語なら特に必要となりますが、英語や他の言語でも「am」を「午前」に変換する場合などもあり、この工夫を挟んでおくのもありだと思います。
3. 目印をつけておく
これも中国語では特に必要となるものですが、プログラム的に置換した用語であることをはっきりさせるために目印をつけておくとより便利に使用できます。
この目印はMS Wordのようなリッチエディタであれば色を付けてしまうのが簡単で分かりやすいでしょう。
他のCATツールのように、エディタ部分がシンプルなものであれば、開始場所と終了場所に、以下のような目印をつけることも考えられます。
<★累计积分★>が50以上
翻訳作業の最後には、この目印が残っていないことを確認するのも忘れずに!
4. 原文を残す(おまけ)
この部分はよりプログラム的な処理になるため、不要といえば不要なのですが……またCATツールでは常に原文が残っているので完全に必要ありません。
Wordなどで一括置換をしてしまうと、原文が残らなくなってしまいます。すると、もしその一文を機械翻訳にかけたいと思っても、上手くいきません。
そこで、3. の工夫をさらに発展させて以下のように変換することも考えられます。
<★ポイント通算 | 累计积分★>が50以上
そして選択箇所の原文(<★~★>の中で、| より前の部分)を削除するマクロと、訳文(<★~★>の中で、| より後ろの部分)を削除するマクロをそれぞれ仕込んでおけば、テキストに応じて原文を使うのか訳文を使うのかを選べるという寸法です。
このように一口に一括置換といっても、様々な工夫が考えられます。
こうした工夫も盛り込んだ、翻訳者用ツールが必要なことがあれば、ぜひぜひお声かけください~