見出し画像

llm-jp-evalの中身を見てみる

llm-jp-evalは8カテゴリ、計12個の日本語の自然言語処理の公開評価データを用いて、言語モデルの生成結果を自動的に評価する。

llm-jp-eval: 日本語大規模言語モデルの自動評価ツール

llm-jp-evalが対応している8つのカテゴリ

  1. 自然言語推論(Natural Language Inference, NLI)
    - Jamp, JaNLI, JNLI, JSeM, JSICK

  2. 質問応答(Question Answering, QA)
    - JEMHopQA, NIILC

  3. 読解力(Reading Comprehension, RC)
    - JSQuAD

  4. 多肢選択問題(Multiple Choice question answering, MC)
    - JCommonsenseQA

  5. エンティティリンキング(Entity Linking, EL)
    - chABSA

  6. ファンダメンタル分析(Fundamental Analysis, FA)
    - Wikipedia Annotated Corpus

  7. 数学的推論(Mathematical Reasoning, MR)
    - MAWPS

  8. 意味的類似性(Semantic Textual Similarity, STS)
    - JSTS

自然言語推論(Natural Language Inference, NLI)

Jamp

前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。それ以外には何も含めないことを厳守してください。

制約:
- 前提から仮説が、時間関係上導出可能である場合はentailmentと出力
- 前提と仮説が両立しえない場合はcontradictionと出力
- そのいずれでもない場合はneutralと出力

Jamp(instruction)

前提:ボブは選挙に撤回を表明している。
仮説:ボブは現在選挙に撤回を表明している。

Jamp(解答: entailment)

前提:2012年11月3日14時以来、マレットは帯に書いている。現在、2005年2月2日4時である。
仮説:マレットは2002年10月22日14時には帯に書いていた。

Jamp(解答: contradiction)

前提:2009年5月21日8時以来、ウォルターは札幌に旅立っている。現在、2000年8月8日4時である。
仮説:ウォルターは2018年6月27日6時には札幌に旅立っていた。

Jamp(解答: neutral)

このタスクは、特に時間的な文脈において、与えられた前提と仮説の間の論理的関係を「entailment」、「contradiction」、「neutral」のいずれかに分類することに焦点を当てています。外国人の名前が使用されている点も特徴的です。

JaNLI

前提と仮説の関係をentailment、non-entailmentの中から回答してください。それ以外には何も含めないことを厳守してください。

制約:
- 前提に対して仮説が同じ意味を含む場合は、entailmentと出力
- 前提に対して仮説が異なる意味を含む場合は、non-entailmentと出力

JaNLI(instruction)

前提:カップルが学生を追い回した
仮説:学生をカップルが追い回した

JaNLI(解答: entailment)

前提:カップルが女性を押した
仮説:カップルを女性が押した

JaNLI(解答: non-entailment)

このタスクは、与えられた前提と仮説の文が同じ意味を持つかどうかを判断することに焦点を当てています。特定の人名や特定の場所名などの固有名詞を使うことなく、一般的な表現や役割を指す語句(例えば「学生」「カップル」「会社員」など)を使用されている点も特徴的です。

JNLI

前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。それ以外には何も含めないことを厳守してください。

制約:
- 前提から仮説が、論理的知識や常識的知識を用いて導出可能である場合はentailmentと出力
- 前提と仮説が両立しえない場合はcontradictionと出力
- そのいずれでもない場合はneutralと出力

JNLI(instruction)

前提:時計がついている場所にパブリックマーケットセンターとかかれた看板が設置されています。
仮説:屋根の上に看板があり時計もついています。

JNLI(解答: neutral)

前提:キリンが、木の中から首を出しています。
仮説:キリンが木々のあいだから顔を出しています。

JNLI(解答: entailment)

前提:ソファーに座っている女の子の前で、犬が座っています。
仮説:ソファーに立っている。

JNLI(解答: contradiction)

このタスクは、与えられた前提と仮説の間の論理的な関係を「entailment」、「contradiction」、「neutral」の3つのカテゴリーに分類することを目的としています。前提と仮説間の関係を評価する際に、具体的な論理的または常識的知識が必要とされる点が特徴です。

JSeM

前提と仮説の関係をyes、no、unknown、undefの中から回答してください。それ以外には何も含めないことを厳守してください。

制約:
- 前提が仮説を含意する場合はyesと出力
- 前提が仮説の否定を含意する場合はnoと出力
- 前提が仮説を含意せず、その否定も含意しない場合はunknownと出力
- 与えられた情報のみからは判断ができない場合はundefと出力

JSeM(instruction)

前提:あっちの学校は校則が厳しいことで有名で、こっちの学校は自由な校風を売りにしている。
仮説:あっちの学校は校則が厳しいことで有名なので、こっちの学校は自由な校風を売りにしている。

JSeM(解答: unknown)

前提:卒業後も地元に留まる学生は多くても100人ぐらいだろう。
仮説:卒業後も地元に留まりそうな卒業生がいる。

JSeM(解答: undef)

前提:学生が一人も来ない。
仮説:来る学生がいない。

JSeM(解答: yes)

前提:あの山は、人間が足を踏み入れたことがない。
仮説:あの山は、めったに人間が足を踏み入れたことがない。

JSeM(解答: no)

このタスクは、与えられた前提と仮説の間の論理的関係を「yes」、「no」、「unknown」、「undef」の4つのカテゴリーに分類することを目的としています。他のタスクとは違い2, 3つのカテゴリーではなく、4つのカテゴリーを判別する必要がある点が特徴です。

JSICK

前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。それ以外には何も含めないことを厳守してください。

制約:
- 前提が真であるとき仮説が必ず真になる場合はentailmentと出力
- 前提が真であるとき仮説が必ず偽になる場合はcontradictionと出力
- そのいずれでもない場合はneutralと出力

JSICK(instruction)

前提:戸外で遊んでいる男の子は一人もおらず、微笑んでいる男性は一人もいない
仮説:子供たちのグループが庭で遊んでいて、後ろの方には年を取った男性が立っている

JSICK(解答: contradiction)

前提:庭にいる男の子たちのグループが遊んでいて、男性が後ろの方に立っている
仮説:幼い男の子たちが戸外で遊んでいて、その男性が近くで微笑んでいる

JSICK(解答: neutral)

前提:茶色の犬が、ズボンをはいた背の高い男性の前にいる別の動物に襲いかかっている
仮説:茶色の犬が、ズボンをはいた男性の前にいる別の動物に襲いかかっている

JSICK(解答: entailment)

このタスクは、与えられた前提と仮説の間の論理的関係を「entailment」、「contradiction」、「neutral」の3つのカテゴリーに分類することを目的としています。前提と仮説間の関係を評価する際に、具体的な論理的または事実的な情報を基にした判断が必要とされる点が特徴です。

質問応答(Question Answering, QA)

JEMHopQA

質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。回答が'はい'と'いいえ'で答えることができる場合、'YES'と'NO'で答えてください。

JEMHopQA(instruction)

質問:『ダンガンロンパ 希望の学園と絶望の高校生』と『ファイナルファンタジーXIII』、発売日が早いのはどちらでしょう?

JEMHopQA(解答: ファイナルファンタジーXIII)

質問:奥州市と酒田市はどちらも東北地方の都市ですか?

JEMHopQA(解答: YES)

質問:豊岡市と伊丹市の管轄区域は、どちらも但馬県民局ですか?

JEMHopQA(解答: NO)

このタスクは、与えられた質問に対して適切な回答を生成することを目的としています。質問は様々なトピックや形式に関するものが含まれており、回答は具体的な情報または「YES」「NO」の形式で答える必要があります。タスクには様々な分野の質問が含まれており、歴史、地理、ポップカルチャー、法律など幅広い知識が求められます。

NIILC

質問に対する答えを出力してください。回答の他には何も含めないことを厳守してください。答えが複数の場合、コンマ(,)で繋げてください。

NIILC(instruction)

質問:初めてノート型パソコンを作ったメーカーは?

NIILC(解答: 東芝)

質問:アオスジアゲハの食草は?

NIILC(解答: クスノキ,タブノキ,シロダモ,ヤブニッケイ)

このタスクは、与えられた質問に対して正確な回答を生成することを目的としています。質問は、歴史、科学、法律、文化など多様な分野にわたります。これにより、モデルの広範な知識と理解力が試されます。

読解力(Reading Comprehension, RC)

JSQuAD

質問に対する回答を文章から一言で抽出してください。回答は名詞で答えてください。 それ以外には何も含めないことを厳守してください。

JSQuAD(instruction)

文章:梅雨 [SEP] 梅雨(つゆ、ばいう)は、北海道と小笠原諸島を除く日本、朝鮮半島南部、中国の南部から長江流域にかけての沿海部、および台湾など、東アジアの広範囲においてみられる特有の気象現象で、5月から7月にかけて来る曇りや雨の多い期間のこと。雨季の一種である。
質問:日本で梅雨がないのは北海道とどこか。

JSQuAD(解答: 小笠原諸島)

文章:生命の起源 [SEP] 『創世記』の6章から9章にはノアの箱舟の物語が描かれている。その物語では、すべての生き物をひとつがいづつ船に乗せた、とされる。これは「別の生物は別に造られた」という考えを暗黙のうちに示している。ユダヤ教の聖書はキリスト教においても『旧約聖書』として引き継がれ、これらの生命観・世界観は広くキリスト教圏でも信じられることになった。
質問:ノアの箱舟の物語が描かれているのは「創世記」の何章から何章まで?

JSQuAD(解答: 6章から9章)

このタスクは、与えられた文脈的な文章から、特定の質問に対する具体的な名詞形の回答を一言で抽出することを目的としています。このタスクの特徴の一つとして、同じ文書から異なる質問が作られている点が挙げられます。

多肢選択問題(Multiple Choice question answering, MC)

JCommonsenseQA

質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。なお、回答は選択肢の番号(例:0)でするものとします。 回答となる数値をint型で返し、他には何も含めないことを厳守してください。

JCommonsenseQA(instruction)

質問:電子機器で使用される最も主要な電子回路基板の事をなんと言う?
選択肢:0.掲示板,1.パソコン,2.マザーボード,3.ハードディスク,4.まな板

JCommonsenseQA(解答: 2)

質問:地中にある一定の大きさの空間のこと?
選択肢:0.麓,1.山頂,2.中腹,3.山腹,4.洞窟

JCommonsenseQA(解答: 4)

このタスクは、与えられた質問と選択肢のセットから正しい回答を選択することを目的としています。タスクには様々な分野からの質問が含まれており、一般知識、科学、社会、日常生活など幅広いトピックがカバーされています。

エンティティリンキング(Entity Linking, EL)

chABSA

与えられた文章から固有表現で書かれたターゲットの名前を抽出し、それに対する極性をpositive、neutral、negativeの中から選択して下さい。固有表現で書かれたターゲットの名前と、それに対する極性(positive、neutral、negativeのいずれか)のペアをスペース( )で区切って出力し、それ以外には何も含めないことを厳守してください。答えが複数の場合、改行で繋げてください。ただし、ターゲットは固有表現である市場、市況、会社/法人、グループ、会社内の部門、事業部、事業領域、製品、サービスの名称などを指すこととします。

chABSA(instruction)

文章:これらにより、当社グループのCNCシステムの売上高は前年度に比べ増加しました

chABSA(解答: CNCシステム positive)

文章:以上の結果、国内きのこ事業全体の売上高は422億96百万円(同3.1%増)となりました

chABSA(解答: 国内きのこ事業 positive)

このタスクは、与えられた文章から固有表現で書かれたターゲットの名前を抽出し、そのターゲットに対する極性(positive、neutral、negative)を判断することを目的としています。文章中の固有表現(企業名、製品名、業界名など)を特定し、それがターゲットとして扱われます。

ファンダメンタル分析(Fundamental Analysis, FA)

Wikipedia Annotated Corpus

wiki_reading

与えられたテキストを全てひらがなに変換してください。回答の他には何も含めないことを厳守してください。

wiki_reading(instruction)

抽象代数学  とは、群、環、体、加群、ベクトル空間や線型環のように公理的に定義される代数的構造に関する数学の研究の総称である。

wiki_reading(問題)

ちゅうしょうだいすうがく  とは、ぐん、かん、たい、かぐん、べくとるくうかんやせんけいかんのようにこうりてきにていぎされるだいすうてきこうぞうにかんするすうがくのけんきゅうのそうしょうである。

wiki_reading(解答)

wiki_ner

与えられたテキストから固有表現(組織名、人名、地名、固有物名、日付表現、時刻表現、金額表現、割合表現)を全て抽出してください。回答の他には何も含めないことを厳守してください。回答には「固有表現1(種類1) 固有表現2(種類2)」のように固有表現の種類も含めてください。

wiki_ner(instruction)

地方公務員(ちほうこうむいん)は、地方公共団体に勤務し、地方公共団体の組織のなかで一定の地位を占め、地方公共団体に勤務を提供する反対給付として、報酬、給料、手当などを受けている者をいう。地方公務員法第2条の規定では、「地方公共団体のすべての公務員」を地方公務員と定義している。かつては、国家公務員を官吏と称したのに対して、地方公務員を公吏と称した。

wiki_reading(解答: 地方公務員法(固有物名))

スミソニアン博物館(スミソニアンはくぶつかん、英:Smithsonian Museum)は、アメリカを代表する科学、産業、技術、芸術、自然史の博物館群・教育研究機関複合体の呼び名。スミソニアン学術協会が運営している。

wiki_reading(解答: アメリカ(地名) スミソニアン学術協会(組織名))

wiki_dependency

与えられたテキストについて文節間の係り受け関係を列挙してください。回答の他には何も含めないことを厳守してください。回答は以下のような形式で答えてください。
係り元文節1 -> 係り先文節1
係り元文節2 -> 係り先文節2

wiki_dependency(instruction)

抽象代数学  とは、群、環、体、加群、ベクトル空間や線型環のように公理的に定義される代数的構造に関する数学の研究の総称である。

wiki_dependency(問題)

抽象代数学  とは、 -> 総称である。
群、 -> 環、
環、 -> 体、
体、 -> 加群、
加群、 -> ベクトル空間や
ベクトル空間や -> 線型環のように
線型環のように -> 定義される
公理的に -> 定義される
定義される -> 代数的構造に
代数的構造に -> 関する
関する -> 研究の
数学の -> 研究の
研究の -> 総称である。

wiki_dependency(解答)

wiki_pas

与えられたテキストから述語項構造を全て抽出してください。回答の他には何も含めないことを厳守してください。回答は以下のような形式で答えてください。
述語1 ガ:項1 ヲ:項2 ニ:項3
述語2 ガ:項4 ヲ:項5

wiki_pas(instruction)

抽象代数学 (ちゅうしょうだいすうがく) とは、群、環、体、加群、ベクトル空間や線型環のように公理的に定義される代数的構造に関する数学の研究の総称である。

wiki_pas(問題)

定義される ガ:代数的構造
研究 ヲ:数学
総称である ガ:抽象代数学

wiki_pas(解答)

wiki_coreference

与えられたテキストから同一の対象を指し示すフレーズを全て抽出してください。回答の他には何も含めないことを厳守してください。回答は以下のような形式で答えてください。
フレーズ1 フレーズ2 フレーズ3
フレーズ4 フレーズ5

wiki_coreference(instruction)

抽象代数学  とは、群、環、体、加群、ベクトル空間や線型環のように公理的に定義される代数的構造に関する数学の研究の総称である。

wiki_coreference(問題)

抽象代数 代数的
抽象代数学 総称

wiki_coreference(解答)

このタスクは、与えられたテキストから特定の情報処理を行い、それに応じた正確な回答を生成することを目的としています。具体的には、テキストを全てひらがなに変換する、固有表現とその種類を抽出する、文節間の係り受け関係を列挙する、述語項構造を抽出する、および同一対象を指し示すフレーズを抽出する、といった複数のサブタスクが含まれています。

数学的推論(Mathematical Reasoning, MR)

MAWPS

与えられた計算問題に対する答えを整数または小数で出力してください。数値のみを出力し、それ以外には何も含めないことを厳守してください。

MAWPS(instruction)

問題:大山のバナナコレクションには36本のバナナがあります。バナナを9つのグループに分けると、それぞれのグループの大きさはどのくらいになりますか?

MAWPS(解答: 4)

問題:愛美は36冊。永田は愛美の7倍も本を持っています。永田は何冊持っているのでしょうか?

MAWPS(解答: 252)

このタスクは、与えられた計算問題を解き、その答えを数値形式で出力することを目的としています。このタスクは、様々な日常的なシナリオに基づいた計算問題を解く能力を評価します。問題は足し算、引き算、掛け算、割り算など基本的な算数から成り立っています。

意味的類似性(Semantic Textual Similarity, STS)

JSTS

日本語の文ペアの意味がどのくらい近いかを判定し、類似度を0.0〜5.0までの間の値で付与してください。0.0に近いほど文ペアの意味が異なり、5.0に近いほど文ペアの意味が似ていることを表しています。整数値のみを返し、それ以外には何も含めないことを厳守してください。

JSTS(instruction)

文1:レンガの建物の前を、乳母車を押した女性が歩いています。
文2:厩舎で馬と女性とが寄り添っています。

JSTS(解答: 0.0)

文1:山の上に顔の白い牛が2頭います。
文2:曇り空の山肌で、牛が2匹草を食んでいます。

JSTS(解答: 2.4)

このタスクは、二つの日本語の文がどれだけ意味的に近いかを評価し、その類似度を0.0から5.0の範囲で数値化することを目的としています。

まとめ

llm-jp-evalは自然言語推論、質問応答、読解力など多岐にわたるカテゴリーをカバーしており、言語モデルの多面的な能力を評価することができます。ただし、まだカバーしていない言語現象やタスクの種類も存在するため、モデルの能力を完全には評価しきれない可能性があります。

代表的なベンチマークであるJapanese MT-Benchの中身も見てみたのですが、Japanese MT-Benchとllm-jp-evalを合わせても翻訳というタスクがほとんど含まれていないことは意外でした。

この記事が気に入ったらサポートをしてみませんか?