見出し画像

言語AIの進化史㉑ChatGPT(人間のフィードバックによる強化学習)

前回は、GPT-1、GPT-2、GPT-3を通して大規模言語モデルの進化を見ました。それは、これまで重要とされてきたファインチューニングの役割を事前学習スケール則凌駕りょうがしていく過程でもありました。

今回のテーマは、ChatGPTです。ChatGPTは、GPT-3の単純なるスケール延長ではなく、会話特化型として特別な手法によって訓練されました。また、これはモデルの性能を劇的に向上させただけでなく、実用性を大きく広げるものでした。

そのための手法が人間のフィードバックによる強化学習(Reinforcement Learning from Human Feedback、RLHF)です。

ただし、RLHFを採用したのはChatGPTが初めてではありません。そこで今回は「人間からの評価スコアを用いて報酬モデルを学習する」手法について初期の研究から紹介します。まずは、時代を2008年にさかのぼって話を始めます。


ここから先は

10,652字 / 4画像

キカベン・読み放題

¥1,000 / 月
このメンバーシップの詳細

この記事が気に入ったらチップで応援してみませんか?