![見出し画像](https://assets.st-note.com/production/uploads/images/158534036/rectangle_large_type_2_b127d6815052512b68faad8226a2b9c2.jpeg?width=1200)
RLHFってめっちゃ人件費かかりそう
お疲れ様です。
日々、ChatGPTをはじめとするLLMとの対話を通じてAIについて学んでいます。
最近ふと「RLHFの学習って、人件費がかなりかかるんじゃないか?」と気づきました。
LLMの学習には、事前学習として次に続く単語を予測するプロセスと、その後に人間に好まれる回答をするように調整するSFT(Supervised Fine-Tuning)やRLHF(Reinforcement Learning with Human Feedback)があります。
最後のプロセスであるRLHFでは、ある質問に対する複数の回答を提示し、人が「どの回答が好ましいか」「どれが好ましくないか」を評価します。
この評価データを利用することで、LLMは単に次に続く単語を選ぶだけでなく、文章全体の流れや文脈に基づいて、どのような回答が好ましいかを意識して次の単語を選べるようになります。
つまり、より高度な会話を実現するためには、このRLHFプロセスが非常に重要となります。
一方で、LLMはどんな話題にも対応できるという特性を持っているため、「どのような回答が好ましいか」を評価するためには、幅広い職種や経歴を持つ人々の協力が必要になります。
例えば、コード生成の能力を高めようとする際には、どのようなコードが好ましいか、どのような書き方が適切でないかを評価するために、実際にコーディングをしている人々の協力が不可欠です。
当初、RLHFのプロセスについて聞いたとき、私は「低コストで多くのアルバイトを雇って評価しているんだろう」と思いました。しかし、コーディングのような高度な専門性が必要な評価に関しては、アルバイトではなく、専門知識を持った人々が関わる必要があります。
他にも様々な分野の専門家などに協力してもらうためには、相応のコストがかかっているだろうと想像します。
これまで、LLMの学習は主にネット上のデータを集めて次に続く単語を予測するプロセスに多大な労力がかかっていると思っていましたが、実際にはRLHFの部分にもかなりの労力が割かれているのではないかと感じています。
LLMの学習プロセスを自分なりに想像するのは、楽しいなと思います。
最後までお読みいただき、ありがとうございました。