MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning
本研究の学術的背景または学術的「問い」は、深層学習の復活から始まり大規模言語モデル(LLM)から利益を得ている視覚-言語モデル(VLM)が人気を博していることです。しかし、LLMが豊富な背景知識とタスク情報を活用できる一方で、複数の画像を含む複雑なマルチモーダルな提示に対して、ほとんどのVLMはまだ理解に苦しんでいます。特に、現在のVLMは主に単一画像のマルチモーダルデータを利用されることを強調し、一方でマルチモーダルな処理には余り利用されていないという問題に遭遇しています。
本研究の目的はVLMの限界を克服することで、これにはモデルとデータの両方の観点から問題を解決するための新たなアーキテクチャとデータセットの開発が含まれます。具体的には、複数の画像でのマルチモーダル入力を扱うことができる新しいネットワークを紹介し、リアルワールドのアプリケーションでより複雑なマルチモーダル提示を理解するためのMICデータセットを開発します。
本研究のアイデアは、大規模な言語モデルと視覚エンコーダを組み合わせて使用することで、種々の視覚課題における卓越したゼロショットキャパシティを示すVLMの最近の進歩から生まれました。しかし、複数の画像を含む複雑なマルチモーダルプロンプトを理解する点で、多くのVLMがLLMからの情報抽出に見劣りすることが発見されました。
我々は、ヴィジョンバックボーンによってエンコードされた画像特徴から視覚エンベッディングを生成するための視覚プロンプトジェネレーターを利用しています。これらの視覚的なエンベッディングは、テキストとのエンベッディングと共に使用されて、混ぜ込まれた入力を製作しています。
本研究の有効性は、幅広い視覚-言語タスク、特に複雑な推論ベンチマークにおいて新たな最先端のゼロショットおよびフューショット性能を達成することで確認されました。また、実験は、MMICLが複雑なマルチモーダルプロンプトの理解への挑戦を効果的に扱うことを示しています。