Zhang+'23 - https://llavar.github.io/
LLaVA を文書画像で指示調整
LAION から 422K のテキスト画像を収集
テキスト画像の QA ペアを含む 16K の会話を生成
テキストベース VQA で LLaVA を大幅に凌駕

この記事が気に入ったらサポートをしてみませんか?