arxiv.org/abs/2308.16463 背景)既存 LVLM は複数画像間で一貫した対話を実現できない 提案)複数画像を考慮する指示追従モデル SparklesChat、GPT-4 を用いた評価ベンチマーク SparklesEval を提案