Evaluation and Analysis of Hallucination in Large Vision-Language Models
1. 本研究の学術的背景と核心的な問いは、大規模視覚言語モデル(LVLM)が「幻覚問題」に直面していることです。「幻覚問題」とは、モデルの応答が視覚的な入力に存在しない情報を含む現象を指し、これは多くのシナリオで利用性を制限します。LVLMにおける幻覚評価をどのように行うかという点についての研究はまだ十分になされていません。
2. この研究の目的は、大規模言語モデル(LLM)を利用した幻覚評価フレームワークである「HaELM」を提案し、幻覚現象を評価する新たな手法を提供することです。研究の独自性と創造性は、これまでにない新たな評価フレームワークの提案にあります。
3. LVLMの応答がしばしば存在しない情報を含む「幻覚」がどのような要素により引き起こされるのかを明らかにすることが本研究のきっかけの一部です。そして、これまで幻覚評価における研究が限られていたことから、本研究は新たな方向性を提供します。
4. 我々はHaELMを使用し、現存するLVLMにおける幻覚を評価しました。また、LVLMの中で幻覚を引き起こす要因を分析し、幻覚問題を軽減するための有益な提案を提供しています。
5. 本研究の有効性は、HaELMはChatGPTと比較して約95%の性能を達成すると共に、低コスト、再現性、プライバシー保護、そしてローカルデプロイメントといった追加の利点を持つことを確認することにより検証しました。