LLMの評価システムの一つであるイロレーティングに関する論文紹介[Cohere論文紹介No.6]
論文名
Elo Uncovered: Robustness and Best Practices in Language Model Evaluation
arXivリンク
https://arxiv.org/pdf/2311.17295
ひとこと要約
Large Language Models (LLMs)の評価に使われるイロレーティングシステムについて実験的に調査
メモ
事前知識:イロレーティングについて
以下のnoteがわかりやすいです。
実験方法
イロレーティングを用いたLLMの比較評価に類似した2つの合成データを用いて実験
ベルヌーイ過程に基づく合成データ
二項分布に基づく合成データ
実験項目
イロレーティングと順序感度
イロレーティングとハイパーパラメータ(K)
イロレーティングと推移性
推移性の特性は、A > B かつ B > C ならば A > C
結果
Eloレーティングと順序について
勝率≥0.6の場合、イロレーティングは安定
勝率≈0.5の場合、単一の比較順序では不安定
比較順序の組み合わせを100以上に増やすことで、安定
ハイパーパラメータ感度
特に勝率が0.5に近い場合に、単一の比較順序で不安定
この不安定性は、K因子が高いほど顕著に悪化
パラメータKを高くし、比較順序の組み合わせを100種類以上にすると収束が高速化
推移性
推移性が、特に勝率が50%前後の場合に脆弱になる可能性
パラメータKを高くし、比較順序の組み合わせを100種類以上にすると、ランキングの一貫性が高い