ChatGPTによる形態素解析「すもももももも」
「すもももももももものうち」という言葉遊びがあります。
「スモモも桃も桃の内」という文章をすべてひらがなで書いたものです。
日本で生活している人であれば、誰でも元の文章を容易に想像することができます。
では、AIはどうでしょう?ChatGPTに代表される大規模言語モデルはコーパスとよばれる情報を使って学習し、これらの言葉をうまく区切ることができます。その能力と限界をみてみましょう。
スモモも桃も桃

酢もスモモも桃

桃もスモモも桃

これらを毎度正確に解析させるために、先に人力で形態素解析するという方法が有効です。

ChatGPTは日本語に対応しています。
しかし、日本語を正確に解析することは難しいため、意図通りのプロンプトを入力することは難しいということを覚えておく必要があります。
その対策として、形態素解析した文章を入力するという手法が有効です。
空白や句読点を多用し文章の区切りを示すことでChatGPTは文章を正確に理解してくれます。
しかし、この手法はプロンプト作成時にコストがかかります。
日本語コーパスの作成をオープンソース的に強力に進めていかなければ、日本語はAIが普及する今後の世界で劣った言語として扱われることになるかもしれません。