シュッと LLM ファクトチェック
ちゃっす(/・ω・)/
最新を追うだけでひーひーいうくらい AI 関連の新しい情報が流れてくる昨今でございますです。はい。
今日も気になる論文があったので読んでみましたの(/・ω・)/
FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios
平たく言うと LLM アプリで生成された応答に対する評価についての論文ですな( ・ω・)
まぁ、詳細は論文を読んでもろて、ワタクシの備忘としてざっくりした内容を記載しておきますわ(/・ω・)/
何を言ってるの?
LLM の回答の正確性に関する評価の方法は前からあったわけでございます(/・ω・)/
しかしながら、LLM の応答は長いものが多いわけでありまして、その回答の中に複数の評価すべき内容が混在しているわけでございますわね(/・ω・)/
例えば一つの回答の中に
論文の引用
数学の計算
コードの記述
単純な知識
を含むとかね(/・ω・)/
こんな感じ
これって単一の指標だと正確性を求めるのむずーい(/・ω・)/
ので、この論文では
LLM の回答の中にどういった主張が存在するか?
その主張はどういったカテゴリに属するか?
知識ベースの質問応答(QA)
コード生成
数学問題解決
科学文献レビュー執筆
そのカテゴリを評価するにはどういう評価をすればよいか?
という感じでまずは LLM の回答を分析しーの
カテゴリごとの主張を適切なツールで評価するためのプロンプトを作成
実行
検証
をするといいんじゃなーい?(/・ω・)/
という感じで言われております。はい。
なのでまぁ基本的に LLM の回答を LLM で分析して適切なツールで評価するってわけでございますが
数学、コードに関する検証はウェブを検索して検証できるとは限らないので Python で実際に動かしてみるぞーってな感じでやってる(/・ω・)/
言ってることはわかる。じゃあどうするの?( ・ω・)
ということで GitHub に実装がござる(/・ω・)/
中でグリグリやってるプロンプトとか覗けるので結構おもしろい(/・ω・)/
https://github.com/GAIR-NLP/factool/tree/main/factool/utils/prompts
ChatGPT の Plugin としても使えるみたい(/・ω・)/
使えそう?
アプローチ的には結構よさげな雰囲気を感じるでござる(/・ω・)/
しかしながら、結局 LLM を LLM で評価するので評価の評価はどうするのー?( ・ω・)
とか気になったり
OpenAI のモデル更新されたらどうなるのー?( ・ω・)
とか思ったり
Python のバージョンとか実行環境合わせなきゃいけなくなーい?( ・ω・)
なんて考えてたり
チェック対象として収集してきたウェブデータが間違ってたらどうするのー?( ・ω・)
そもそもウェブ検索で出てこない質問とかどうなるのー?( ・ω・)
とかなんとか考えてしまいますけれども、一定のレベルのチェックとしてはいいかなーと思いまする(/・ω・)/
というところで満足したのでおしまい。