llm-jp-evalが対応している8つのカテゴリ
自然言語推論(Natural Language Inference, NLI)
- Jamp, JaNLI, JNLI, JSeM, JSICK
質問応答(Question Answering, QA)
- JEMHopQA, NIILC
読解力(Reading Comprehension, RC)
- JSQuAD
多肢選択問題(Multiple Choice question answering, MC)
- JCommonsenseQA
エンティティリンキング(Entity Linking, EL)
- chABSA
ファンダメンタル分析(Fundamental Analysis, FA)
- Wikipedia Annotated Corpus
数学的推論(Mathematical Reasoning, MR)
- MAWPS
意味的類似性(Semantic Textual Similarity, STS)
- JSTS
自然言語推論(Natural Language Inference, NLI)
Jamp
このタスクは、特に時間的な文脈において、与えられた前提と仮説の間の論理的関係を「entailment」、「contradiction」、「neutral」のいずれかに分類することに焦点を当てています。外国人の名前が使用されている点も特徴的です。
JaNLI
このタスクは、与えられた前提と仮説の文が同じ意味を持つかどうかを判断することに焦点を当てています。特定の人名や特定の場所名などの固有名詞を使うことなく、一般的な表現や役割を指す語句(例えば「学生」「カップル」「会社員」など)を使用されている点も特徴的です。
JNLI
このタスクは、与えられた前提と仮説の間の論理的な関係を「entailment」、「contradiction」、「neutral」の3つのカテゴリーに分類することを目的としています。前提と仮説間の関係を評価する際に、具体的な論理的または常識的知識が必要とされる点が特徴です。
JSeM
このタスクは、与えられた前提と仮説の間の論理的関係を「yes」、「no」、「unknown」、「undef」の4つのカテゴリーに分類することを目的としています。他のタスクとは違い2, 3つのカテゴリーではなく、4つのカテゴリーを判別する必要がある点が特徴です。
JSICK
このタスクは、与えられた前提と仮説の間の論理的関係を「entailment」、「contradiction」、「neutral」の3つのカテゴリーに分類することを目的としています。前提と仮説間の関係を評価する際に、具体的な論理的または事実的な情報を基にした判断が必要とされる点が特徴です。
質問応答(Question Answering, QA)
JEMHopQA
このタスクは、与えられた質問に対して適切な回答を生成することを目的としています。質問は様々なトピックや形式に関するものが含まれており、回答は具体的な情報または「YES」「NO」の形式で答える必要があります。タスクには様々な分野の質問が含まれており、歴史、地理、ポップカルチャー、法律など幅広い知識が求められます。
NIILC
このタスクは、与えられた質問に対して正確な回答を生成することを目的としています。質問は、歴史、科学、法律、文化など多様な分野にわたります。これにより、モデルの広範な知識と理解力が試されます。
読解力(Reading Comprehension, RC)
JSQuAD
このタスクは、与えられた文脈的な文章から、特定の質問に対する具体的な名詞形の回答を一言で抽出することを目的としています。このタスクの特徴の一つとして、同じ文書から異なる質問が作られている点が挙げられます。
多肢選択問題(Multiple Choice question answering, MC)
JCommonsenseQA
このタスクは、与えられた質問と選択肢のセットから正しい回答を選択することを目的としています。タスクには様々な分野からの質問が含まれており、一般知識、科学、社会、日常生活など幅広いトピックがカバーされています。
エンティティリンキング(Entity Linking, EL)
chABSA
このタスクは、与えられた文章から固有表現で書かれたターゲットの名前を抽出し、そのターゲットに対する極性(positive、neutral、negative)を判断することを目的としています。文章中の固有表現(企業名、製品名、業界名など)を特定し、それがターゲットとして扱われます。
ファンダメンタル分析(Fundamental Analysis, FA)
Wikipedia Annotated Corpus
wiki_reading
wiki_ner
wiki_dependency
wiki_pas
wiki_coreference
このタスクは、与えられたテキストから特定の情報処理を行い、それに応じた正確な回答を生成することを目的としています。具体的には、テキストを全てひらがなに変換する、固有表現とその種類を抽出する、文節間の係り受け関係を列挙する、述語項構造を抽出する、および同一対象を指し示すフレーズを抽出する、といった複数のサブタスクが含まれています。
数学的推論(Mathematical Reasoning, MR)
MAWPS
このタスクは、与えられた計算問題を解き、その答えを数値形式で出力することを目的としています。このタスクは、様々な日常的なシナリオに基づいた計算問題を解く能力を評価します。問題は足し算、引き算、掛け算、割り算など基本的な算数から成り立っています。
意味的類似性(Semantic Textual Similarity, STS)
JSTS
このタスクは、二つの日本語の文がどれだけ意味的に近いかを評価し、その類似度を0.0から5.0の範囲で数値化することを目的としています。
まとめ
llm-jp-evalは自然言語推論、質問応答、読解力など多岐にわたるカテゴリーをカバーしており、言語モデルの多面的な能力を評価することができます。ただし、まだカバーしていない言語現象やタスクの種類も存在するため、モデルの能力を完全には評価しきれない可能性があります。
代表的なベンチマークであるJapanese MT-Benchの中身も見てみたのですが、Japanese MT-Benchとllm-jp-evalを合わせても翻訳というタスクがほとんど含まれていないことは意外でした。