見出し画像

日本語特化サービスが欲しくなる理由

文学フリマに出品する作品の原稿をChatGPTに渡して簡単な文章解析させようとするのだけれど、

私:この文書で使われている頻度の高い単語を上位5つまで抜き出してください

この文書で頻度の高い上位5つの単語は以下の通りです:

1. **は** - 49回
2. **と** - 46回
3. **い** - 32回
4. **が** - 29回
5. **の** - 24回

これらは日本語の基本的な助詞や動詞の一部であり、文章の構造を形成する重要な要素です。

・・・・(^_^;)
私:単語は名詞に限定します

`janome`という形態素解析ツールがインストールされていないため、名詞を抽出することができません。他の方法で名詞を抽出する必要があります。Pythonの標準ライブラリや利用可能な他のツールを用いて名詞を抽出しますので、少々お待ちください。

で、生成されたコードをコピって自分でやったほうが結果としては早かった

文書内で頻度の高い名詞の上位5つは以下の通りです:

1. **という** - 20回
2. **では** - 20回
3. **アーアー** - 18回
4. **この** - 13回
5. **しかし** - 13回

ただし、これらの単語は必ずしも名詞ではなく、接続詞や引用句としても使われている可能性があります。名詞のみを抽出するためには、より高度な日本語形態素解析ツールの利用が必要です。

日本語処理に優しいサービス プリーーーーズ!

日本の会社がこぞって日本語特化LLMを作っている。それは嬉しいことだけど、言語モデルと、それを使ったサービスとの間には、ふっかーい谷があり、2つを混同してはいけない。この谷を超えられるところがどのくらいあるのか。頑張ってほしい。

この記事が気に入ったらサポートをしてみませんか?