LLMは次の単語を予測し続けているというのは本当か?
お疲れ様です。
日々、ChatGPTをはじめとするLLMとの対話を続けています。
LLMの原理を説明する際、よく「次に続く単語を予測し続けている」と表現されます。
もちろんその通りなのですが、最近ふと「あれ?この説明は正確なのだろうか?」と疑問に思うようになりました。
LLMの学習プロセスは、次の単語を予測する能力を身につける事前学習と、その後、回答の質を高めるSFTやRLHFに分けられます。特にRLHFでは、特定の質問に対して複数の回答を用意し、人間(アノテーター)がどの回答がより好ましいかを評価し、その結果をモデルの学習にフィードバックします。
つまり、RLHFでは「次に続く単語がどれが適切か」という局所的な最適化ではなく、文章全体を通して最も適切な単語の並びを選択するように学習していることになります。
RLHFを経ることで、単に次の単語を予測する以上の能力が備わっているのです。
このことを踏まえると、「LLMは次に続く単語を予測しているだけ」と説明するのは少し違っており、「文章全体の流れを考慮しながら、次に続く最適な単語を予測している」と言った方がより適切なのではないかと思います。
少しLLMへの理解が深まったことが嬉しく思います。
最後までお読みいただき、ありがとうございました。