見出し画像

【検証】校正支援ツールTyE「文脈を踏まえた誤り検知」の実力とは?

はじめに

こんにちは。M研の杉野です。
今年2022年春にお披露目した「校正支援ツールTyE」について、皆さんはもうご存知でしょうか?このテックブログの公開前チェックでも毎回使っており、なかなか頼もしい働きをしているので、多くの方にその実力を知っていただきたいと思っていました。
そこで今回は、他のツールとの比較も交えながら、TyEが得意とするところを中心に紹介してみたいと思います。

TyEってなあに?

TyEは、入力文の文法的な間違い箇所を検知する校正支援ツールです。
現状の機能としては「こう直してください」という修正提案までは行わないので「校正ツール」ではなく「校正を支援するツール」という立ち位置です。間違い箇所さえ分かれば、修正は自分でできるような日本語ネイティブユーザーを想定しているため、TyEはできるだけ漏れなく間違いを見つけることに特化して開発されています。検知の仕組みやデモの詳細についてはこちらの記事を参照ください。

TyEの強みとは?

TyEに興味を持ち、問い合わせくださった方々には評価版デモを試してもらっています。そのフィードバックとして「文脈を踏まえて、助詞や漢字の間違いを見つけてくれるのが助かる」(他の校正ツールでは見つけられない場合がある)という声をいただくことがありました。このブログの運用担当としてTyEを使っている私にとっても、そのフィードバックは共感できるものでした。
そこで、無料で試せる3つの校正ツールと比較しながら「文脈を踏まえた誤り検知」の実力を検証していきたいと思います。文例は、下記の本からヒントを得たり、「この間違いを拾えるのはありがたい」とフィードバックをいただいたものなど、検証目的に合ったものを集めています。

文脈を理解した誤り検知とは?

この記事で言うところの「文脈を理解した誤り検知」とはどんなものを指すのかを説明します。

TyEによるチェック結果(誤り箇所に色をつけて指摘)

例えば企業を話題にした文において「車内」を使うのは変だ、と指摘しているこのようなものを「文脈を理解した誤り検知」としています。文の流れだけ見ると正しそうですが、文脈的にこの言葉はおかしい、といった指摘をしています。念のため正しい文を入力すると、特に間違いの指摘はしませんでした。
このような漢字の誤変換以外にも、例えば繰り返しが必要な言い回しや重複した不要な表現など、文脈を踏まえた誤りの指摘と言える多様な文例を集めました。

さっそく比べてみよう

3つの校正ツールとTyEに同じ文例をチェックさせ、どれだけ誤りを指摘できるか比較してみました。各ツールの仕様は様々ですが、どれも誤り箇所に色や下線などをつけて指摘をしてくれます。「誤り文」と「正しい文」をセットでチェックし、下記のような要領で採点しました。
・誤り箇所のみ指摘できた場合は2点
・誤りを指摘できたが正しい文にも指摘してしまった場合は1点
・誤りを指摘できなかった場合は0点
14セットをチェックした結果は下記のとおりです。(28点満点)
TyE:24点
ツールA(クラウドのドキュメントツールにビルトインされている校正機能):16点
ツールB(クラウド校正サービス):12点
ツールC (ドキュメントツールにビルトインされている校正機能):0点

TyEの実際のチェック結果

誤り箇所を色付きで指摘(上部に説明あり)

<一部の例文について、間違いポイントを解説>
誤:東京から大阪新幹線で何時間かかるのか。
正:東京から大阪まで新幹線で何時間かかるのか。
  →「から」を「まで」で受けるのが適切
誤:業績不振を課題感じている。
正:業績不振を課題と感じている。
  →「感」が繰り返されている
誤:カルテが電子化されることは、病院にとっても患者にとってメリットが大きい。
正:カルテが電子化されることは、病院にとっても患者にとってもメリットが大きい。
  →2つ目の「とっても」の「も」が抜けている
誤:最も最優先すべきことは、安全の確保です。
正:最も優先すべきことは、安全の確保です。
  →「最も」と「最優先」の「最」で意味が重複している

積極的な検知のメリット

以上が、様々なパターンの誤り文で比較してみた結果です。比較結果によく現れているのが、TyEができるだけ漏れなく誤りを拾おうとしている特徴です。間違いを指摘して空振りに終わる(=正しい部分も指摘してしまう)ケースが他のツールより多い面があるのですが、その分間違いの取りこぼしが最も少ない結果となっています。
これは、長らくTyEを使っている立場としてはとても重要なポイントだと感じています。テックブログ記事の事前チェックを行う中で、どこに潜んでいるかわからない間違いを見つけるのは大変骨の折れる作業であり、例え空振りがあったとしても怪しい箇所が概ね拾われていて、それをチェックすれば大半のミスは防げる、というのはかなりの安心感があります(残念ながら100%の保証はできないのですが)。TyEを導入してからは、10分くらいかけて丁寧にチェックしていた作業が2〜3分に短縮された感覚です。

実のところ、弱点も

TyEのいいところばかりお伝えしているのですが、試したいという方には注意していただきたい弱点についても触れておきたいと思います。

  • 修正候補の提案は行いません

  • 1文につき1箇所だけ検知することが多いです

  • 固有名詞のチェックには対応していません

1つ目については冒頭でも述べたとおりです。2つ目は学習データが基本的に1つの誤りを含むもののため、モデルの癖として、1箇所誤りを指摘して安心してしまうことが多いようです。これについては対応策もあるので試用の際ご相談いただければと思います。3つ目は、文法的な誤りを指摘することがメイン機能のためです。
いずれも今後のアップデートによっては変わるものもあるかもしれませんので、ご期待いただければと思います。興味のある方はぜひデモをお試しの上、使い心地のフィードバックをお寄せ下さい。TyEの応援よろしくお願いします!

TyEのことがわかる1分動画

お問い合わせはこちらのサイトから

(メディア研究開発センター・杉野かおり)