AlpacaEval の概要

2023年10月17日 16:13

「AlpacaEval」の概要についてまとめました。

1. AlpacaEval

「AlpacaEval」は、高速で安価で信頼性の高いLLM ベースの自動評価ベンチマークです。

2. 評価方法

一般的なユーザーの指示に従うモデルの能力をテストする「AlpacaFarm」の評価セットを使って評価対象のLLMの応答を生成し、「GPT-4」または「Claude」の自動アノテーターによって「davinci003」の応答と比較し、その結果がリーダーボードでの勝率になります。

3. 制限事項

「AlpacaEval」は、モデルの能力を比較するのに役立ちますが、モデルの能力の包括的な評価やゴールドスタンダードの評価ではありません。1つは、「AlpacaFarm」の論文で詳しく説明されているように、自動アノテーターの勝率は長さと相関しています。人間による注釈にもこの偏りは見られますが、より詳細な回答が下流のタスクでの有用性を高めるかどうかは不明です。さらに、「AlpacaFarm」の評価セットは多様ではありますが、主に単純な指示で構成されています。ツールの使用などのために、より複雑な新しい評価セットを提供することを奨励します。そして、「AlpacaEval」はモデルの安全性も評価しません。