【論文瞬読】AIは嘘をつくのか？OpenAIが提案する新しい"真実度"評価法 SimpleQA

2024年11月6日 12:49

こんにちは！株式会社AI Nestです。今回は、OpenAIの研究チームが発表した「SimpleQA」という新しい評価方法についてお話しします。最近よく耳にする「AIが嘘をつく」という問題。この課題に対して、シンプルながら効果的なアプローチを提案している興味深い研究なんです。

タイトル：Measuring short-form factuality in large language models
URL：https://cdn.openai.com/papers/simpleqa.pdf
所属：Department of Linguistics and Wu Tsai Institute, Yale University, OpenAI, Department of Computer Science, Princeton University, Roundtable, Department of Psychology, Princeton University
著者：Jason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao,
Spencer Papay, Amelia Glaese, John Schulman, William Fedus

AIと「嘘」の微妙な関係

「このAI、本当のことを言ってるのかな？」

ChatGPTやBardを使っていると、誰もが一度は感じる不安ではないでしょうか。実は、これはAIの世界での重大な課題なんです。

AIが「嘘をつく」と言っても、人間のように意図的に嘘をつくわけではありません。むしろ、存在しない情報を自信満々に語ったり、誤った事実を断定的に述べたりするような現象です。この「ハルシネーション（幻覚）」と呼ばれる問題は、AIの実用化における大きな障壁となっています。

SimpleQAが提案する新しいアプローチ

では、このハルシネーション問題に対して、SimpleQAはどんなアプローチを取っているのでしょうか？

従来の評価方法（TriviaQAやNatural Questions）は、最新のAIモデルにとっては簡単すぎる問題でした。また、長い文章での事実確認は、評価自体が非常に難しい。そこでSimpleQAは、「短く、明確で、でも難しい」質問を用意したんです。

具体的には、4,326問の質問を用意しました。例えば：
「2010年のIEEE Frank Rosenblatt賞を受賞したのは誰？」
「カナダのリアリティ番組『To Serve and Protect』は、どのアメリカのテレビ局で初放送された？」

一見シンプルな質問ですが、これらはGPT-4でも簡単には答えられないように設計されています。

徹底的な品質管理への取り組み

SimpleQAの特徴的なのは、その徹底的な品質管理プロセスです。

まず、AIトレーナーが質問を作成します。この時点で、ChatGPTを使って基準違反がないかチェックします。さらに、別のAIトレーナーが独立して回答を検証。両者の回答が一致した質問だけが採用されます。

最終的には、第三者による抜き取り検証まで行い、エラー率を約3%まで抑えることに成功しました。この数字は、評価基準としての信頼性を示す重要な指標となっています。

意外な発見：AIの自己認識

研究チームは、この評価基準を使って様々なAIモデルをテストしました。その結果、いくつかの興味深い発見がありました。

例えば、より大きなモデル（GPT-4やClaude-3-opus）は、確かに正確な回答が多い傾向にあります。しかし、「わからない」と認める能力は、必ずしもモデルの大きさに比例しないんです。

さらに面白いのは、AIの「自信」についての分析です。一般的に、AIモデルは自分の能力を過大評価する傾向があります。でも、同じ質問に対して何度も同じ答えを返すケースでは、その答えが正解である可能性が高いことがわかりました。

実務での活用：何が変わる？

これらの発見は、実務でのAI活用にどう活かせるのでしょうか？

システム設計の面では、AIの確信度に基づいて回答をコントロールすることが重要になってきます。「わからない」と答えられる機能を実装することで、誤った情報の提供を減らすことができるでしょう。

また、モデル選択の際も、単純に大きなモデルを選ぶのではなく、用途に応じて適切なモデルを選ぶことが重要です。ミッションクリティカルな用途では、高い正確性と「わからない」と答える能力が求められます。

今後の展望：SimpleQAが開く可能性

SimpleQAは、まだ始まったばかりの取り組みです。今後は、長文での評価や、画像と組み合わせた評価など、さらなる発展が期待されます。

また、このベンチマークが業界標準として確立されれば、より信頼性の高いAIシステムの開発が促進されるでしょう。

まとめ：私たちに何を教えてくれるのか

SimpleQAの研究は、AIの「知っていることと知らないことを区別する能力」の重要性を教えてくれます。これは実は、人間にも通じる大切な資質かもしれません。

確実な情報と不確実な情報を区別し、わからないことは「わからない」と認める。そんな誠実なAIの開発に向けて、SimpleQAは重要な一歩を示してくれたと言えるでしょう。