論文解説:LLMのペアワイズ評価を自動化するLLMの自動精度向上手法(人間アノテーター不要)「Self-Taught Evaluators」
論文タイトル
「Self-Taught Evaluators」(自己学習型評価者)
当論文の目的
人間の評価者を代替するLLM、つまり自動評価用LLMの性能向上を目的とした論文です。
評価の手法はLLM-as-a-Judgeすなわち、あるプロンプトに対しての応答が2つあった場合に、2つの応答のいずれがより好ましい応答かを判断する評価能力に焦点を当てています。
よって、この論文の手法を用いてLLMを訓練して出来上がったLLMは、プロンプトとそれに対する2つの応答例を入力する事で、LLMがどちらの応答がより好ましいかと、その判断をする思考過程と理由を出力するモデルが出来上がります。
既存研究の課題
従来の深層学習モデル、特に大規模言語モデル(LLM)の評価は、主に人間のアノテーションに依存していました。これは、質の高い評価データを大量に収集する必要があり、コストと時間がかかるプロセスでした。さらに、モデルが進化するにつれて、以前のアノテーションデータは時代遅れになる可能性がありました。
以前、同Meta社の論文で、SFTは自動化出来るところまできていたが(下記論文)、RLHFやDPOする為の評価アノテーターは人間に頼っていた。
本研究で解決した課題
この研究では、人間のアノテーションデータを全く使用せずに、LLMの評価能力を向上させる手法を提案しています。モデル自身で生成した合成データを用いて反復的に自己学習を行うことで、評価能力を高めています。これにより、従来必要とされていた高コストな人手によるアノテーション作業を不要とし、常に最新のモデルに対応した評価が可能となります。
つまり、RLHFやDPOをする為のアノテーション能力を備えたLLMの能力向上手法に関する論文である。
最も参考にした関連研究
関連研究として特に参考にしたのは、「AlpacaEval: An automatic evaluator of instruction-following models.」です。この研究では、LLMを評価者として利用する手法が提案されています。
研究の目的
本研究の目的は、人間のアノテーションなしに、評価用LLMの評価能力を向上させることです。これにより、LLMの評価プロセスを効率化し、常に最新のモデルに対応した評価を可能にすることを目指しています。
手法
ここから先は
この記事が気に入ったらサポートをしてみませんか?