Viewpoint Integration and Registration with Vision Language Foundation Model for Image Change Understanding
本研究における問いは、事前訓練された視覚言語の基盤モデル(VLFMs)が、1つの画像を理解する能力は強く、しかし複数の画像を理解する能力に欠けるという問題をどう解決するかです。具体的には、画像の変化を理解(ICU)するためには、複数の画像間の実際の変化を捉え、それを言語で記述するモデルが必要で、既存のVLFMsはその能力を持っていません。
本研究の目的は、画像間の細かな違いを捉える能力を持つ新たな画像エンコーダーを提案し、さらに画像間で異なる視点を考慮に入れる能力を持つ新しい方法を提案することです。これにより、VLFMsは複数の画像をより効果的に理解する能力を付与することが可能になります。このフレームワークの創造性は、「視点統合および登録方法」を提案し、事前訓練されたエンコーダーを微調整することで、画像ペア間の細やかな違いを効果的に捉えることにあります。
本研究の着想は、ICUタスクや異なる視点での画像を有効に扱うことができるような新しいアダプタとフュージョンアダプタを挿入することで、事前訓練された画像エンコーダに微調整を加えるというものです。また、本研究は、これまでのVLFMsの研究動向を踏まえ、画像の変化を理解するための新たな方法を提案することで、その枠組みを拡大しようとしています。
本研究では、「視点統合と登録法(VIR-VLFM)」を提案し、VLFMsが画像間の細かな違いを捉えるだけでなく、視点の違いを考慮に入れる能力をもつことができるようにしました。その結果、我々の方法は画像の変化理解(ICU)タスクにおいて、既存の最先端の手法を凌ぐ性能を達成しました。
本研究の有効性は、CLEVR-ChangeおよびSpot-the-Diffというデータセットを用いた実験結果により検証されています。これらの結果は、我々の手法が他の手法と比べて最高性能を達成できることを示しています。