
【論文読んでみた】 LLMが生成した長文文書の”事実性”を評価する(SAFE/ Google DeepMind)
またまた面白そうな論文が出ていましたのでご紹介。みなさん、LLMのハルシネーション問題には頭を悩ませていることかと思います。そんなハルシネーション問題にたいして、事実性の確認という手法で長文文書を評価しようという試みについての論文です。
この論文内では、SAFEというモデル、SAFEで使われる質問セットであるLongFact、SAFEで使われる指標(メトリックス)であるF1@Kが提案されています。

タイトル: Long-form factuality in large language models
著者: Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Jie Huang, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le
所属: Google DeepMind 2 Stanford University 3 University of Illinois at Urbana-Champaign
リンク: https://arxiv.org/abs/2403.18802
面白いと思ったポイントは3つです。
LLLが生成する事実ではない内容(いわゆるハルシネーション)の事実性を評価する方法である。
長文評価を前提としており、文章を個々の事実に分解してから事実ごとに評価する。(SAFEモデル)
SAFEは人手よりも評価が優れていて、かつ、コストが低くすむ。
LongFactと呼ばれる事実性を測定するための質問セットを事前にGPT-4で作成しておき、その質問セット(プロンプト)を使って事実性の評価をするとのことです。
質問セットはGitHubでも公開されているので、こちらを見るのも面白いかもしれません。
https://github.com/google-deepmind/long-form-factuality/tree/main/longfact
一方で、まだ課題もあるようです。
LongFact(質問セット)の生成はLLMに依存している。
SAFEモデルでは事実評価にGoogle検索を使っているため、すべてのケースをカバーできない可能性もある。
F1@K(評価のメトリックス)は事実の重複を仮定していない。
1つ目の話は、課題とも考えられますが、LLMの性能向上でSAFE自体の精度が上がるとも考えられるようです。2についてはRAGもしくはFunction Callingする先のデータソースを用意することで対応できそうな気もします。3は事実の重複が文書内で存在すると事実性評価が高くなることを示すようですが、どなたか詳しい方がいたらぜひ教えてほしいなと思っています。
今日はこんなところで!