見出し画像

なぜ日本語変換に同音異義語判定が重要なのか

知財、IT産業、ネット、放送、買ったもの、ライフハックなど、コデラの気になるところを語ります。


我々ライターにとって、日本語入力変換は仕事の効率に直結するため、妥協できないポイントである。macOS向けにはいくつかのIMEの選択肢があり、それぞれ一長一短がある。個人的な評価をまとめると

・macOS純正
入力中にもどんどん漢字変換していくというライブ変換の特性を利用し、長文を一気に入力することで変換精度を上げる。ただ同音異義語を正しく変換できないことがあり、気付かず入稿してしまうなどのトラブルがある。英単語混じりの変換が苦手で、技術文書にはあまり向いていない。

・ATOK
長年培われた変換エンジンで、入力ノウハウがかなり詰まっている。先頭大文字で入力すると英語入力と判断するなど、現実的な対応も魅力。同音異義語は自分で選択肢から選ぶタイプ。予測変換に重点を置いており、全文入力しなくても続きの文章を提案してくれる。変換履歴を覚えているので、間違って消した文章でも入力を始めると、予測変換により復元できてしまうという技も使える。

・Google日本語入力
無料で使える純正以外の選択肢として注目されたが、昨今は開発が止まっているように見える。ネットスラングに強いという特徴もあるが、個人的にはあまり使いどころがない。同音異義語は自分で選択肢を選ぶタイプ。平均的な性能ではあるが、ある意味強みが感じられない。

そのほかにも「かわせみ3」という入力ツールもあるようだが、これはまだ試していない。

個人的にはATOKが一番使いやすいと感じているが、それでも同音異義語が一発で正しく変換されないことは多い。特に全然違う系統の文章を書いている際に顕著である。

コデラは大学で芸術を学んでいるが、講義メモとして日本文化の古い言葉や芸術用語とかを入力したあと、仕事に戻って技術文書に戻ると、変換がメタメタになる。なぜならば直近の変換履歴から推測しているため、技術では使わない漢字変換が出てくるからである。

本来ならこうした使い方をする場合、文章の傾向によって辞書セットを切り替えるべきなのだろうが、簡単に切り替えられるようにはなっていないこともあり、そこまではなかなか手が回らないところである。

■同音異義語がポイント

日本語入力というのは、非常に複雑なプロセスだ。コデラはローマ字入力なのだが、まずはローマ字からひらがなへの変換がリアルタイムで行われる。そこから変換動作に入ると、入力されたひらがなの羅列から適度なところで文節を判断し、漢字部分とひらがな部分に分ける。

この文節切り分けに関しては、昔の未熟なFEP時代では自分で文節切り分けを調整しないと、日本語にもならないような変なことになってしまっていた。なので往年のライターはいまだに文節ごとに変換キーを押して確定していくという方法を取る人も多い。自分で入力しながら文節まで確定していくわけだ。

最近その流れが変わりつつあるのは、やはりmacOSのライブ変換の影響だろう。ライブ変換はそもそも文節を自分で切らない前提であり、入力された全文を見て文節を判断していくので、入力が長文になればなるほど正確に文節が分けられるという特徴がある。

これを踏まえて今、日本語入力において重要視されるべきは、同音異義語をいかに正しく変換されるかという点であろう。高島俊男著「漢字と日本人」によれば、日本語というのは発音のバリエーションが多言語に比べて異様に少ないので、同音異義語が生まれやすいそうである。

ここから先は

1,923字
この記事のみ ¥ 200

この記事が気に入ったらチップで応援してみませんか?