【IT用語】形態素解析
用語説明
形態素解析
自然言語で書かれている文を最小の単位に分けて細分化し、判別すること
解説
形態素とは…
言葉が意味を持つまとまりの単語の最小単位のこと。
例えば青色であれば
「青」と「色」に分けられます。
日本語であれば
「日本」と「語」に分けられます。
ここでさらに「日」と「本」に分けてしまうと
意味が変わってしまうので、分けることはできません。
形態素解析はそうした
まとまっている単語を
最小の単位まで分けて判別をしていきます。
「私はnoteで記事を書きます」であれば
私/は/note/で/記事/を/書き/ます に分けられ、
私 note 記事(名詞)
は で を(助詞)
書き(動詞)
ます(接尾辞)
このように判別し、
検索ツールなどでは
データ処理を最適化しています。
思ったこと
急に日本語の用語となりました笑
今まで英単語の意味を調べて書いていたのですが
今度はそもそもの漢字、言葉の意味を調べて書いてるので
やっていることは変わりません。
形態素という用語も初めて知りましたし…
この解析をすることにより、
果たして何に活用されるのか…?
上にも最後のほうに書きましたが
「検索ツール」が一番分かりやすいでしょう。
例えば文章で検索することもできますが
文章をそのままシステムのほうで調べようとすると
データ量も多くなるし、目的の結果を得るのも難しい。
形態素解析をすることにより、
最小単位を判別し
調べるべき単語で検索をしているのです。
「渋谷でランチ」で検索するのであれば
「渋谷」と「ランチ」のワードに分けて
調べている。 「で」は省いてます。
このようにしてデータ量を少なくすれば
処理時間も短縮されるし、
目的に合った結果を得ることができますね。
これは初めて知りましたが、
今流行りのチャットGPTもこれで判別しているのかなぁと。
今日も良い1日となりますように!