SmartCATに物申した

ブラック羊

2020年10月21日 11:47

どうも！
新しいソフトを見つけたら、今のソフトにそれほど不満がなくても
ついつい使いたくなってしまうブラック羊です。

Memsourceにはおおむね満足しているけれど、
料金が高いよな～と思っていたら見つけましたよ、無料のクラウドCATツール。

その名もSmartCAT。

https://smartcat.com/

分かりやすい名前ですね。

UIもきちんと日本語化されています。

利用はどれだけ使っても無料。
どうやらSmartCAT経由で翻訳を依頼した際の手数料で運営している模様。

ちょっとワクワクしながら触ってみましたよ。

SmartCATを使ってみた（準備編）

実験にあたり、こんな原稿を用意しました。

TradosやMemsourceと違い、原稿アップロード→プロジェクト作成の流れがいいですね。
個人的に、プロジェクト作成→原稿アップロードの順番は初見殺しだと思っています。

原稿のアップができたらプロジェクトの詳細を入力し、
統計情報を見てみると……

あれ……？

あんなに似ている文ばかりの原稿なのに、繰り返しが少しあるだけ。
90％くらいの一致がまったくありません。

なぜだ……
まぁエディタ部分を触ってみれば分かるでしょう！

SmartCATを使ってみた（エディタ編）

エディタはブラウザで使えます。
Memsource等と同じく、左右レイアウトですね。
翻訳をしたらCtrl+Enterを押して確定しながら進めるスタイルです。

早くも嫌な予感が的中です。

1の「これは原文1です。」を訳した時点で、
3の同じ文にも翻訳が自動適用されています。
これは予想通りというか、当然のことでしょう。

次に「これは原文2です。」に進みます。
最初はCAT情報が何も表示されず、「もしや」と思いましたが、
しばらくすると

のように、「”1”と”2”だけ違うよ～」と、きちんと教えてくれました。

あ～なるほど、翻訳メモリの反映に少し時間がかかってるのね。
まぁこれは許容範囲でしょう。

謎はすべて解けた（解決編）

さて、翻訳メモリを使って、無事セグメント2も翻訳できました。

次はセグメント4ですね。

そしてここで原因が発覚します。

右の上側「CAT」の部分では
　「これは原文1です。」
と
　「これは原文の1部です。」
は75％似ていると教えてくれています。

しかし、下の「CAT情報」の部分に目をやると……
数字の”1”以外はすべて違うといわれてしまいました。

それでピンときました。

この子、単語単位（またはRun単位）で見ているな！？

英語で試してみた（検証編）

まずは上記の検証ファイルをDeepLさんに英訳してもらいます。

これをもう一度、別プロジェクトにアップしてみます。

統計は先ほどと同じく、「繰り返し」以外はゼロが並んでいますが……

そしてエディタを開いて、同じように翻訳していくと……

ほらきた！

原文は”a”のあるなしだけ違うよ～、と親切に教えてくれました。

うん、これなら便利ですね！

うん、便利便利。

便利……ですが……

……

すみません、私の主担当って

「日本語」と「中国語」なんですよね。

どっちも単語がスペースで分かれていないから……活用できないじゃん！

結論

SmartCATは単語がスペースで区切られている言語の翻訳者にとってなら、
便利なんじゃないですかね～

また、統計の数字についてはおそらくですが、
ファイル内の類似は見ていない、翻訳メモリとの類似だけを計算している
ということなのでしょう。

なので、新規案件の見積もりにも使いづらいかも……

一応、SmartCATチームにはフィードバックをしておきました。

というか、CATの部分（75%とか）では一文字単位で編集距離を計算しているのに、
CAT情報では単語単位って、なんか矛盾してませんかね？