シュッと LLM ファクトチェック

2023年7月27日 21:50

ちゃっす(/・ω・)/

最新を追うだけでひーひーいうくらい AI 関連の新しい情報が流れてくる昨今でございますです。はい。

今日も気になる論文があったので読んでみましたの(/・ω・)/

FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios

平たく言うと LLM アプリで生成された応答に対する評価についての論文ですな(　・ω・)

まぁ、詳細は論文を読んでもろて、ワタクシの備忘としてざっくりした内容を記載しておきますわ(/・ω・)/

LLM の回答の正確性に関する評価の方法は前からあったわけでございます(/・ω・)/

しかしながら、LLM の応答は長いものが多いわけでありまして、その回答の中に複数の評価すべき内容が混在しているわけでございますわね(/・ω・)/

例えば一つの回答の中に

を含むとかね(/・ω・)/

こんな感じ

これって単一の指標だと正確性を求めるのむずーい(/・ω・)/

ので、この論文では

という感じでまずは LLM の回答を分析しーの

をするといいんじゃなーい？(/・ω・)/

という感じで言われております。はい。

なのでまぁ基本的に LLM の回答を LLM で分析して適切なツールで評価するってわけでございますが

数学、コードに関する検証はウェブを検索して検証できるとは限らないので Python で実際に動かしてみるぞーってな感じでやってる(/・ω・)/

言ってることはわかる。じゃあどうするの？(　・ω・)

ということで GitHub に実装がござる(/・ω・)/

中でグリグリやってるプロンプトとか覗けるので結構おもしろい(/・ω・)/
https://github.com/GAIR-NLP/factool/tree/main/factool/utils/prompts

ChatGPT の Plugin としても使えるみたい(/・ω・)/

アプローチ的には結構よさげな雰囲気を感じるでござる(/・ω・)/

しかしながら、結局 LLM を LLM で評価するので評価の評価はどうするのー？(　・ω・)

とか気になったり

OpenAI のモデル更新されたらどうなるのー？(　・ω・)

とか思ったり

Python のバージョンとか実行環境合わせなきゃいけなくなーい？(　・ω・)

なんて考えてたり

チェック対象として収集してきたウェブデータが間違ってたらどうするのー？(　・ω・)

そもそもウェブ検索で出てこない質問とかどうなるのー？(　・ω・)

とかなんとか考えてしまいますけれども、一定のレベルのチェックとしてはいいかなーと思いまする(/・ω・)/

というところで満足したのでおしまい。