自然言語処理入門(正規化)#2

このペースで書いていって年内に終わるのか不安だが、今回は「カタカナ」の正規化について簡潔に説明したい。参考文献は「外来語(カタカナ)表記ガイドライン」(一般財団法人テクニカルコミュニケーター協会)、https://www.jtca.org/standardization/katakana_guide_3_20171222.pdf などである。

日本語を難しくているのは文法はもとより、漢字かな混じりの文になっているからである。ひらがな、カタカナ、漢字(旧字の含む)、外来語、前回説明した数字(西暦、年号、漢数字、、等々)。今回は、「カタカナ」に注目する。

前回同様、自分が持っているデータベースに「バイオリン」があったとする。バイオリンの話題をすると「サザエさんのマスオさんはバイオリン弾けるんだよね」と答えさせたいとする。

このとき、「ヴァイオリン」という人もいれば「バイオリン」という人もいる。自分のデータベースに合わせるために、ヴァ、ヴィ、ヴゥ、ヴェ、ヴォ、を「バビブベボ」に変換する操作を正規化と呼ぶ。カタカナとひとくちにいってもたーくさんある。プリンターという人もいればプリンタととめる人もいる。ウィスキーという人もいれば、ウイスキーもいる。ソフトウエア、ソフトウェア、、。枚挙にいとまがないが、今、流行りの「ウイルス」は「ウィルス」「ヴィールス」「ヴァイルス」「ビールス」などたくさんある。これらを全部、自分のデータベースに合わせて正規化しなければ、コンピュータは全部違うワードとして認識してしまうので自然言語処理の前処理としては非常に大事な処理となっている。

#ちなみに 、「東京ヴェルディ」のような固有名詞は通常はそのままデータベースに登録してあるので(正式名称)、東京ベルディのように変換せず処理をする(正規化例外処理)。

次回は漢字の正規化について説明したい。

この記事が気に入ったらサポートをしてみませんか?