最近のクイズ研究ニュースと個人的な感想

2024年3月20日 19:01

ここ最近クイズ研究まわりで色々な成果が世に出されているのでざっくりまとめ&個人的な感想を書く

言語処理学会

3月11日(月)〜3月15日(金)にかけて、神戸で言語処理学会第30回年次大会 (NLP2024)が開催されていて、今年もクイズに関する発表がいくつかなされていた。
クイズ関係のセッションは多くが3月12日(火)にかたまっていたので、私はこの日だけ有休を取ってオンラインで発表を聞いてきた。

A1-5 小林俊介, 河原大輔 (早大) 『多様なクイズを自動生成する手法およびその検証』

https://www.anlp.jp/proceedings/annual_meeting/2024/#A1-5

昨年のAI王なども含めこのところ研究が盛んになっている問題生成に関するトピック。ここでは特に「多様な問題を生成する」という点に注目して研究を行っている。

問題生成の構成はFusion in Decorder (FiD)を使用。最近は問題生成にはほとんどがLLMを使用している傾向なので、FiDを使っているだけでもちょっと気になるところ。

この研究での工夫点は主に2つで、まず1つは生成時の入力データの形式を変更するもの。問題生成の際、一般的には「文書+解答」→「問題」という形を取ることが多いが、解答を与えずに「文書」→「問題」もしくは「文書」→「問題+解答」というパターンを検討した。

またもう1つは既存問題との似た問題が生成されにくくすることで多様な問題生成を行わせようとしたもの。BERTScoreを使って問題の類似度を測定し、既存問題との類似度が高い場合に学習を弱めるようにする。

問題生成の評価指標としては、uniqueな1-gramおよび2-gramの割合を使っている。入出力形式については、「文書+解答」から問題生成するより「文書」のみから生成する方が多様性が向上する結果が得られている。また、学習損失の制御についても、類似度を用いた制御を入れた方が多様性が高くなる結果となっている。

今回この2種類の工夫によって「多様性の向上」という目的がある程度達せられているのは評価に値すると思う。ただ、uniqueなn-gramによる評価によって多様だと見なされているものが、定性的にどのような多様性を持っているのかはもう少し気になるところ。また、今後に向けた課題点として多様性と問題としての適切性とがトレードオフになっている点が挙げられており、実用化していく中ではこのあたりをより深掘りしていく必要が特に感じられた。

E2-3 島田克行, 折原良平, 森岡慎太, 市川尚志 (キオクシア)『嘘がなく、面白いクイズの自動生成』

https://www.anlp.jp/proceedings/annual_meeting/2024/#E2-3

NLP2022で『クイズビジネスにおける作問作業支援』という研究を出していたキオクシアのメンバーによる新たな成果。第4回AI王問題作成部門の結果なども踏まえ、ある程度問題生成そのものはできるようになってきたという現状の中で、良い問題を生成するにはどうするか、というところに今回はフォーカスを置いている。

この研究の中では早押しクイズの良い問題の要件として以下の4つを挙げている：

トレンドを押さえている
事実に反していない
キーワードに対して取り上げるトピックが面白い
文構造が面白い

これを満たすような問題文を生成することが研究の主な目標。

2022年にはT5ベースのモデル（https://huggingface.co/sonoisa/t5-base-japanese-mC4-Wikipedia）をもとにファインチューニングして問題生成を行っていたが、今回は問題生成そのものはChatGPTを使っている形。ただ、以下2つの工夫により「事実に反していない」「トピックが面白い」という要素を担保しようとしている：

Retriever-Readerモデルによって嘘のない知識ソースを生成する
TensorFlow Rankingの推薦システムで知識ソースの中から「面白い」ものを抽出する

こうして抽出された知識ソースをプロンプトの中に埋め込むことで、嘘がなく面白い問題生成を実現しようと試みている。モデルにはabc/EQIDENとAQLの問題をそれぞれ使い、spaCyとGiNZAで前フリと後限定を抽出したものを使って、複数のモデルを生成して比較している。

嘘のない問題という観点では、誤り頻度が57%→25%と大幅に低下している。実用化の上ではもっと下げたいところだが、大きな前進と言って良さそう。面白さの観点についても最大140%への向上が見られるのでまずまずの結果が出ている。

個人的には、まず4要件に含まれる「面白い」という言葉の解釈があまり明確でないのが気になっている。生成された問題の面白さの評価は人手で行っているが、ここの基準の不明瞭さによって評価が揺れる側面がある程度ありそうな気がしているので、面白さそのものの中身についての検討は別途行われるべきだと思う（ただこれは言語処理の範疇からは外れてくるので言語処理学会で扱われるものではないかもしれないが）。

また、今回の研究では4つめの要件である「文構造が面白い」というのにはあまり触れられていない。これも正直どういう文構造だと面白いと見なされるのかが不明瞭な部分が若干あるが、とりあえず論文中で既存問題について前フリ-後限定という文構造を特徴として挙げているので、問題生成の方についてもそのあたりの評価を見てみたいように思う。特に、今回は前フリの情報で学習したモデルで問題生成、後限定の情報で学習したモデルで問題生成、とそれぞれ別々に行っているが、既存問題の構成がある程度面白いと見なすのであれば、前フリの情報と後限定の情報を両方渡して、それぞれ前フリと後限定に作った問題を生成させるようなプロンプトを組んだときにどうなるかは非常に気になるところ。NLP2024のSlackで質問したら「論文を書き始めたぐらいのタイミングで思いついたが間に合わなかった」というようなコメントをもらったので、今後このあたりのさらなる結果が出てくるんじゃないかと勝手に期待している。

クイズの問題に使う情報の選定にあたって情報がどれだけ世に知られているかを判断させるのが難しい印象を持っていたが、その部分を「前フリからの学習」「後限定からの学習」という形で、既存問題の前フリ／後限定と同程度の知名度になるように設計しているのは頭が良いやり方だと思った。今回のNLP2024ではクイズ関係のセッションが5件あったが、個人的にはこのセッションが一番内容として面白かったと思う。

C3-6 水上雅博, 藤田早苗, 小林哲生 (NTT)『絵本を題材とするクイズの生成と評価』

https://www.anlp.jp/proceedings/annual_meeting/2024/#C3-6

私の個人的な興味の中心はどうしても競技クイズに偏りがちだが、これは少し別の文脈で、「クイズ」という形式をもっと実用的な場面で活用するケースの話。NTTは絵本検索システム「ぴたりえ」というのを提供しており、その中で「子どもが絵本を読んで理解できたかどうか」を測るためにクイズを利用する、という場面を想定している。

既存のクイズ問題生成の研究は、まだ黎明期なので特に文脈を指定せず機械的に生成しやすいタイプの問題生成に偏っている側面があり、こうした特定の文脈に沿った問題生成はまだあまり研究成果が出ていない。ここでは絵本の理解度を測りたいので、一般知識を使わず絵本に書いてある内容のみから正解できるような問題生成をする必要がある。

問題生成にはNTTが開発している大規模言語モデル「tsuzumi」を使用。生成のインストラクションとしては絵本のタイトル、本文、そして作成する問題の対象年齢を渡す形を取っている。

文脈を指定した問題生成はまだまだ難しいところがあるようで、結果としては問題の内容が間違っていたり解答が一意に絞れないような問題の割合が高く出ている。指定の絵本に関連したクイズが生成できているかという観点では最良のモデルで50%程度、解答の整合性がとれているかという観点も入れると30%程度とのこと。

そのほか、マルチタスク学習なども試しているがあまり結果には寄与しなかったらしい。

具体的なビジネスモデルに繋がるようなクイズ問題生成の研究は盛んになっていってほしい分野ではあるが、まだまだ改良の余地が大きそうな所感。また指定した情報源を元に正解できるという妥当性担保の部分は競技クイズの問題生成としても応用が利くところと思われるので、そういう点でも今後の改良に期待したい。

P5-3 杉山宏輝, 角康之 (未来大)『早押しクイズの名数問題における解の妥当性を考慮した解答をするための CoT プロンプトの構築』

https://www.anlp.jp/proceedings/annual_meeting/2024/#P5-3

このポスターセッションは3月12日(火)に時間が取られていたが他用があって見られなかったので、論文とポスターを見た限りでの感想を書く。

ここまでは問題生成の話を扱った発表だったが、この研究はどちらかというと問題に答える側の視点に立ったもの。名数問題について、名数の列挙がなされる前に答えを絞り込むやつを実現できるか、というところに挑戦している。

解答システムのベースはStable LMで、工夫点としてはプロンプトにChain of Thought (CoT)という手法を使っている。これは段階に分けた思考過程を出すことで精度を上げる技法で、例えば

問題：京都三大祭りといえば？
解答：京都三大祭りは葵祭、祇園祭、時代祭の3つである。葵祭は5月、祇園祭は7月、時代祭は10月に開催されており、時系列順に並べた方が自然であるため、最後に聞かれるのは時代祭である。よって答えは「時代祭」

というような推論過程を含んだ解答をプロンプト内で例示し、新たに与えた問題への解答としても同様のものを出力させる。

名数問題の推論のパターンについては、情報処理学会インタラクション2023で同じ著者が発表している杉山宏輝・角康之『早押しクイズの解候補の絞り込み』で挙げた以下の4つを用いている：

仲間外れ 解候補のうち, 他に共通している上位概念がないもの
文字列の類似度 解候補のうち, 文字の表記や音が1つだけ似ていないもの
難易度 解候補のうち, 1 つだけ単語の難易度が高いもの
順序日付など何かしらの番号が付与されている単語の順番

CoTプロンプトとしてはこの4種類が全て含まれる計8問の例示を入れて答えを列挙させている。結果としては、標準プロンプトでもCoTプロンプトでも正解率が0.1台で、目に見えて大きく正解率が上がっているような形にはなっていない。

うまくいかないパターンとして、そもそも解候補の列挙がうまくできていない、推論パターンの選択がうまくできていない、推論そのものがうまくできていない、といった複数の要因があるので、それらを切り分けるとどうなるかが気になる。例えば正しい解候補と推論パターンを示した時の正解率はどの程度になるのか、正しい解候補を示した上で推論パターンの選択の妥当率はどの程度になるのか、といった部分についてさらなる研究がなされることを期待したい。

D7-3 山下陽一郎, 原田宥都, 大関洋平 (東大)『早押しクイズにおける超次単語予測の認知モデリング』

https://www.anlp.jp/proceedings/annual_meeting/2024/#D7-3

このセッションは3月13日(水)にあり、この日は有休を取らなかったので論文と発表スライドを見た限りでの感想を書く。

言語処理学会で扱われるクイズ関連のトピックはだいたいクイズ解答か問題生成を扱ったものが多いが、この研究は「認知モデリング」というちょっと変わったトピックを扱っている。この研究メンバーはNLP2023では『人間らしい予測処理機構を取り入れた質問応答モデルの提案』という発表をしていて、パラレル問題の前半部から後半部を推測するモデルをGPT-2のfine-tuningを使って構成していた。

今回の研究では、パラレル問題の後半部予測について、John Haleなどが提案した「サプライザル理論」を援用することをテーマとしている。人間は文処理においてそれまでの文脈などから後続の語や文節を推測しているが、予測しやすさの程度には広がりがあり、予測しやすいものは認知的負荷が低い、予測しづらいものは認知的負荷が高い、という傾向を持つとされている。この予測しづらさのことを「サプライザル」と呼んでおり、処理負荷とサプライザルが比例する関係となっている。言語モデルの「人間らしさ」をはかる上で、人間の認知的負荷の程度との相関を比較する、という研究がよく行われており、今回の研究はパラレル問題の後半部推測についてこの比較を行う、というのが主眼となっている。

人間の認知的負荷についての実験としては、パラレル前半部からの後半部推測（文産出課題, +predic）と前半部そのものの理解（文理解課題、-predic）の2種類の課題を行い、眼球運動を計測して文章の読み時間がどの程度になるかを測定している。実験参加者はクイズ経験のあるexpertとそうでないnoviceの2つに分けられ、提示する課題の文章は後半部推測が容易なeasyと難しいdifficultの2種類に分類される各20問の問題を使っている。

GPT-2ベースの言語モデルを元にしたサプライザルの眼球運動のモデリングを心理学的予測精度(Psychometric Predictive Power, PPP)をベースに人間の視線計測実験結果と比較すると、文理解課題(-predic)より文産出課題(+predic)の方が良くモデリングできており、またnoviceよりexpertの方が、difficultよりeasyの方が良くモデリングできる結果が得られている。これは事前学習のみのGPT-2でもある程度表れていて、ファインチューニングをするとさらに精度が向上する結果となっている。

サプライザル理論などについてあまり詳しく知らないので細かい部分がきちんと理解できているかちょっと怪しいところがあるが、言語モデルがある程度人間らしい挙動をしているというのが示されたのは面白い研究成果だと思った。ここではパラレル問題を題材にしており、future workとしてもパラレル問題での音韻的な要素を考慮した予測処理を挙げていて、それ自体かなり面白そうなトピックだが、これに加えて、第4回AI王の早押し解答部門の結果からパラレルに限らず言語モデルが後続文推測をある程度妥当に行えるようになってきたように感じているので、非パラレル問題についての同様の研究も気になっている。

『クイズコンペティションの結果分析から見た日本語質問応答の到達点と課題』

有山知希, 鈴木潤, 鈴木正敏, 田中涼太, 赤間怜奈, & 西田京介. (2024). クイズコンペティションの結果分析から見た日本語質問応答の到達点と課題. 自然言語処理, 31(1), 47-78. https://doi.org/10.5715/jnlp.31.47

過去に行われてきた「AI王」の内容を取りまとめた査読付き論文がついに公開された。ここでは第3回までのAI王の成果をサマライズしており、クイズ問題に解答する質問応答システムとしての比較評価が行われている。

AI王のために作成された質問応答システムのうち、GPTベースラインのもの以外は全て「Retriever-Reader方式」と呼ばれる形式を取っている。ここでは与えられた問題文に関連する文書をRetrieverが検索し、それを元にReaderが解答を抽出／生成する。分析対象のシステムの中では、抽出型ReaderにはBERTが、生成型ReaderにはFiDおよびT5が用いられていた。Retriever-Reader方式のシステムの中でも、複数のRetriever/Readerを持つシステムや、Rerankerと呼ばれる、Retrieverが検索した文書を関連度順に並び替える構成要素を持つシステムが好成績を収めている。

これらの質問応答システムは、全体としては9割を超える高い正解率を示しているが、人名を問う問題のように安定して高い正解率を出すものがある一方で、推論・計算を要する問題等苦手としている問題パターンもいくらか確認されている。また学習データセットにあまり含まれない単語の問題で正解率が下がる特性もあり、広範な学習データを使うことが改善に繋がると期待される。

GPTベースのシステムについては、AI王の結果としては特化型のRetriever-Reader方式のシステムに一歩及ばなかった。これらのシステムで特徴的に見られる誤答パターンとして、英語→日本語の翻訳が不適切なもの、および所謂"hullucination"が挙げられている。

AI王は毎年のように素晴らしい成果を出していて、とても良い取り組みと思っている。第3回では9割を超える高い正答率を出し、第4回で（条件付きだが）人間とほぼ互角に戦える早押し解答能力を示したのは衝撃的だった。次回はどういったものを見せてくれるのか非常に楽しみ。

『AQLルールの数理モデリング』

https://booth.pm/ja/items/5581845

こちらは学術論文ではないがちょっと見かけて気になったのでついでに言及しておく。AQLの10by10by10miniルールに関する考察。ルールの詳細はAQL公式対戦ルール（別名：『10by10by10mini』）解説を参照。

10by10では誤答ポイントが10→9→と下がっていくごとに必要正解ポイントが10→12→13→15→17→……と増えていく。ここでポイントが9→8の時の必要正解数の増分が1となっていて、10→9の時の増分2より小さくなっている。こうしたルールの数理的特性を知っておくことは戦略を考える上で重要。

これと同様に、10by10by10miniでも数理的特性がどうなっているかを考える、というのがこの研究の趣旨。10by10by10miniではチームメンバー5人の各得点の積がチームの得点となるが、高得点の人が正解しても残り必要正解数が変わらないケースがあるので、どういう場合にそうした事態が起きるのかを明らかにすることを目指す。

この研究では麻雀の用語を援用して、チームが残り必要な正解数を「シャンテン数」と呼称している。また正解によりシャンテン数を変えない枠、したがって押す必要のない枠のことを「キャップ」と呼んでいる。その他の用語については本文を参照。

本論は「トップ3×ボトム2理論」と「シャンテン数」の2つの考察から構成されている。

第1節「トップ3×ボトム2理論からみる3−4−6 キャップとx−5−5
キャップ」では、自チームの得点上位3人（トップ3）の積αと下位2人（ボトム2）の積βに分けて考える「トップ3×ボトム2理論」を紹介している。チームの得点αβが200以上となる条件を具体的に挙げて、キャップの条件を考えると、トップ3が

3-4-6: 3人ともキャップ
x-5-5: 5点の枠がキャップ
4-4-5: 5点の枠がキャップ（出現率低め）

になったときにキャップの枠が生じている。

第2節「シャンテン数からみるAQLルール」では、一般的にAQLルールでどのような戦略を立てるべきかについて、シャンテン数をベースとしてより詳細な考察を行っている。結論としては、第1節で言及した3-4-6もしくは5-5のキャップを狙うか、1人目は6ptまで頑張れるだけ頑張り、2人目が追いついてきたら足並みを揃える、というのが良いらしい。

10by10と比べて、掛け算の要素が5枠分になっていて複雑さが増しているので、いかに整理して理解するかが鍵になっているように思う。ただ附録に完全版が挙げられているように全列挙ができる程度の分量ではあるので、将来的には細かい得点状況全てにおいての最適戦略を把握して臨むのがデフォルトになってくるのかもしれない。

こうしたルールの分析と対策が深まっていくのは同じルールで継続的に実施される大会ならではのもので、個人的には非常に好感を持っているところ。こうした考察の取り組みは是非とも応援していきたい。