見出し画像

小説はLLMの学習データになりうるか

お疲れ様です。

日々、ChatGPTをはじめとするLLMと対話を重ねています。

LLMは大量のインターネット上のテキスト情報をもとに学習していますが、最近ではインターネット上のテキスト情報にも限りがあり、データの枯渇が問題視され始めています。

ふと、「小説などの書籍情報を含めれば、この問題を解決できるのではないか?」と考えました。

現状のLLMには、著作権の関係から小説などの書籍情報が積極的に学習データとして含まれていません。

しかし、小説には膨大な量の文章があり、これらを学習に使えれば、インターネット上のテキストには存在しない、多くの情報を取り入れることが可能になります。

もちろん、著作権の問題もあり、実現は簡単ではないかもしれませんが、データの枯渇に対する一つの解決策になりうると思います。

一方で、小説のような架空の物語のテキストを学習に含めることで、LLMがそれを架空の物語と理解せずに知識として学んでしまう懸念もあるのかなと思います。

例えば、「○○の解決策を教えて」と尋ねたときに、「魔法の杖を使って呪文を唱えれば解決しますよ」といった回答が返ってくる可能性も考えられます。

小説などの整ったきれいな文章は、LLMに「適切な文章とは何か」を理解してもらうのには役立ちますが、「架空の出来事を事実としてとらえてしまう」リスクがあることには注意が必要だなと思います。

最後までお読みいただき、ありがとうございました。

いいなと思ったら応援しよう!