言語AIの進化史㉑ChatGPT(人間のフィードバックによる強化学習)
前回は、GPT-1、GPT-2、GPT-3を通して大規模言語モデルの進化を見ました。それは、これまで重要とされてきたファインチューニングの役割を事前学習とスケール則が凌駕していく過程でもありました。
今回のテーマは、ChatGPTです。ChatGPTは、GPT-3の単純なるスケール延長ではなく、会話特化型として特別な手法によって訓練されました。また、これはモデルの性能を劇的に向上させただけでなく、実用性を大きく広げるものでした。
そのための手法が人間のフィードバックによる強化学習(Reinforcement Learning from Human Feedback、RLHF)です。
ただし、RLHFを採用したのはChatGPTが初めてではありません。そこで今回は「人間からの評価スコアを用いて報酬モデルを学習する」手法について初期の研究から紹介します。まずは、時代を2008年に遡って話を始めます。
この記事が気に入ったらチップで応援してみませんか?