論文紹介: LLaVA-1.5 (Improved Baselines with Visual Instruction Tuning)

2023年10月7日 19:12

昨日、LLaVA-1.5が発表されましたね。

🚀 LLaVA-1.5 is out! Achieving SoTA on 11 benchmarks, with simple mods to original LLaVA! Utilizes merely 1.2M public data, trains in ~1 day on a single 8-A100 node, and surpasses methods that use billion-scale data.
🔗https://t.co/y0kG0WZBVa
🧵1/5 pic.twitter.com/kMz0LTk63R
— Haotian Liu (@imhaotian) October 6, 2023

LLaVA-1.5は、今まで公開されているV&Lモデルの中で、初めて以下のスクリーンショットからそれぞれのキャラの順位を正しく答えることができました。

「ウマ娘」の対人イベントである「チャンピオンズミーティング」の結果を入力した場面。
各ウマ娘が何位だったかを正確に出力できている。

また、このイベントは5回戦で1セットなのですが、5回中何回勝利したか、またレース中のスクリーンショットから、自分のキャラが今何番手かを回答することもできました。

何回勝ったかという質問や、レース中の画面で、自分のキャラが何番手かを答えることもできた。

驚くべき性能を発揮するLLaVA-1.5が、どのような工夫をしたのかが気になったので、今回はLLaVA-1.5の論文である
"Improved Baselines with Visual Instruction Tuning"
を読み進めていきます。

前提知識

LLaVAとは

LLaVA (Large Language-and-Vision Assistant)は、Vision encoderとLLMを組み合わせてエンドツーエンドにトレーニングすることができるようにしたモデルです。

ビジョンエンコーダは画像のような、視覚的なデータを解析して、潜在表現へと変換します。
一方で、LLMでは、ビジョンエンコーダから渡された情報と、テキストの入力を解析して応答を出力します。

LLaVAはこれら二つのコンポーネントをエンドツーエンドで訓練することで、視覚と言語のマルチモーダルな変換を可能にします。
その結果として、LLaVAは、Visual instruction tuningの初期の研究として、視覚的推論能力において高い性能を示しました。

LLaVAの課題

しかし、LLaVAでは、与えられた選択肢から、正しい選択肢の数字のみを出力するなど、短い形式の回答を必要とする学術的なベンチマークでは低い性能を示していました。

この課題は、LLaVAは他の研究のように、大規模なデータで事前学習されていないことが原因であると考えられています。
（補足: LLaVAはGPT-4によって自動生成されたimage-text会話データを使用）

研究の目的と概要

この研究では、主にLLaVAの性能を向上させることを目的として、以下の調査と検証を行いました。

Vision-Language コネクターの改善
Vision encoderとLanguage Model間のコネクターを線形変換から2層のMLPに変更しました。
スケーリングの影響の調査
学習データ、モデルサイズ、入力画像の解像度の３要素についてそれぞれスケーリングさせて、その影響を調べました。

これらの調査結果をもとに、ベンチマークでの性能が向上した施策を全て組み合わせたところ、12のうち11のタスクでSoTAを達成しました。

LLaVAの改良

プロンプトの応答フォーマット指定

InstructBLIPのようなアプローチでは、短文のVQA (Visual Question Answering)と長文のVQAの両方に対応することが難しい問題がありました。
これは、以下の２つの原因によるものでした。

Visual instruction tuningにおいて、質問に対してどのような形式で回答して欲しいのかが明確でないプロンプトを用いている
「Q: {質問} A: {Answer}.」のようなフォーマットは、望ましい出力形式を明確に示していないため、視覚に基づいた自然な会話であってもLLMが短い形式の応答をするような振る舞いに過剰適合する可能性があります。
InstructBLIPではQformerのみをトレーニングし、LLMのファインチューニングを行っていない
短文と長文の両方に対応するには、Prefix-TuningのようにQformerの出力でLLMの応答の長さを制御する必要がありますが、LLMと比較してQformerの能力は限られているため、期待される出力形式に正確に制御することができません。

これに対処するために、まず、短い文章での回答を促す際に、出力形式を明確に指定するプロンプトを問題文の末尾に追加しました。
追加したフレーズは例えば以下のようなものです。

Answer the question using a single word or phrase.

このようなプロンプトを用いてLLMをファインチューニングした場合、LLaVAはユーザの指示に基づいて出力フォーマットを適切に調整することができました。

以下の表１に示すように、この文章を追加したVQAv2を学習に含めるだけで、短い文章での応答が必要なMMEにおけるLLaVAの性能は 502.8 → 1323.8 と大幅に向上し、この段階でInstructBLIPを111ポイント上回りました。

表１データ、モデル、解像度をそれぞれスケールさせた場合のベンチマークスコアの変化。

MLP Vision-Language コネクタ

線形射影からMLPに変更することによる自己教師あり学習の性能向上にインスパイアされ、2層MLPをvision-languageコネクタとすることで、コネクタの表現力を向上させます。
結果、元の線形射影のアーキテクチャと比較して、LLaVAのマルチモーダル能力を向上させることができることを発見しました。
どの程度の向上がみられたのかは、表１における「３ +MLP VL connector」に示す通りです。

特定のタスクに焦点を当てたデータセットの追加

モデルのさまざまな能力を強化するために、VQAだけでなく、OCRや領域レベルの認識に焦点を当てた４つのデータセットを追加しました。
これらはどれもInstructBLIPで使用されているものです。

広範な知識が必要なVQA
- OKVQA
- A-OKVQA
OCRが必要なVQA
- OCRVQA
- TextCaps

ここで、A-OKVQAは複数の選択肢から1つを選ぶタスクに変換され、以下の書式がプロンプトに使用されました。

Answer with the option’s letter from the given choices directly.

表１における「4 +OKVQA/OCR」に示している通り、InstructBLIPが使用するデータセットのサブセットのみでLLaVAは3つのタスク全てにおいてInstructBLIPを上回っており、LLaVAの設計が効果的なものであることを示唆しています。

さらに、領域レベルのVQAデータセット（RefCOCO）を追加することで、モデルは画像内の特定の部分や詳細をより正確に識別・特定することができるようになりました。（表1における「5 +Region-level VQA」）

（再掲）表１データ、モデル、解像度をそれぞれスケールさせた場合のベンチマークスコアの変化。

その他のスケーリング

LLMが画像の細部をはっきりと「見る」ことができるように、入力画像の解像度を224→336にスケールアップしました。
追加の視覚的な知識源として、GQAデータセットを追加しました。
ShareGPTのデータを追加しました。
LLMを7B→13Bにスケールアップしました。

MM-Vetの結果はLLMをスケールアップした時に最も顕著な改善を示しており、視覚的情報に基づいた会話においてベースとなるLLMの能力の重要性を示唆しています。

すべての変更を加えた最終モデルをLLaVA-1.5（表1の最後の2行）と呼びます。

考察

この部分は、著者の意図を正確に伝えるため、論文の内容を和訳するにとどめました。

SoTAとの比較

LLaVA-1.5では、既存手法と比較して、事前学習やinstrucitonチューニングのデータが非常に少ないにもかかわらず、12ベンチマーク中11のベンチマークで最高の性能を達成しました。
LLaVA-1.5が、もっとも単純なアーキテクチャを使用し、一般に公開されているデータセットでこれを達成できたことは、将来の研究のための再現可能で手ごろなベースラインを確立したと言えるでしょう。

表 1. LLaVA-1.5が幅広いタスクのベンチマークでSoTAを達成したことを示す図。

また、LMM（Large Multimodal Model）の能力を向上させるためには、事前学習よりもVision instruction tuningの方が重要な役割を果たすことが示唆され、CLIPやOpenCLIP, EVA-CLIPなどのVision encoderは既にWebスケールの画像とテキストのペアデータセットで事前学習しているにもかかわらず、LMMを構築する際には大量のV＆Lアライメントの事前学習が必要であるという通説に疑問を投げかけています。

LLaVA-1.5は7Bのモデルでさえ80BのIDEFICSを凌駕しています。
この結果は、マルチモーダルな指示に追従する能力という観点から、ビジョンサンプラーの利点と、大規模な事前学習の必要性を再考させるものであるといえます。

Zero-shot指示の汎化

LLaVA-1.5は限られた数の形式の指示でのみ学習されましたが、他の命令にも汎化していることが分かっています。
まず、VizWizでは、提供された内容が質問に回答するのに不十分な場合、モデルに「Unanswerable」を出力することを要求しており、表8に示すような我々の回答形式プロンプトは効果的に機能します。
（回答不能な質問のうち、「回答不能」と答えた割合が11.1%→67.8%）

さらに、LLaVA-1.5に質問を検証するように指示したり（表３）、JSONフォーマットで回答するように指示する定性的な例（表４）を示します。

表 3. LLaVA-1.5は質問を検証するように指示された場合に、
応答するのが難しい質問を認識して応答することができる。

表 4. LLaVA-1.5はGPT-4Vと比べていくつかのエラーはあるものの、画像から情報を抽出し、
要求された形式に従って回答することができる。

Zero-shot 多言語能力

LLaVA-1.5は、多言語のマルチモーダルな指示に従うためのファインチューニングは全く行っていませんが、一つの要因として、ShareGPTの多言語の言語指示のおかげであると考えられます。
特に、LLaVA-1.5が中国語のマルチモーダル指示データでinstructionチューニングされていないのにもかかわらず、LLaVA-1.5がQwen-VL-ChatをMMBenchCNにおいて7.3%上回ったことは特筆すべきでしょう。

計算コスト

LLaVA-1.5では、LCS-558K1と同じ事前学習データセットを使用し、LLaVAとほぼ同じトレーニングイテレーションとバッチサイズでinstructionチューニングを行いました。
画像入力の解像度が336pxに向上したため、LLaVA-1.5の学習時間はLLaVAの約2倍となりました。

つまり、8 x A100ノードを1つ使用し、事前学習に約6時間、vision instructionチューニングに約20時間を使用しました。

LLaVA-1.5の課題

LLaVAは完全な画像パッチを利用するため、各トレーニングイテレーションが長くなる可能性があります。
Visual resamplerはLLMにおける視覚的なパッチの数を減らしますが、リサンプラの学習可能なパラメータ数が多いためか、LlaVAと同等の学習データ量ではLLaVAほど効率的に収束させることはできません。
サンプル効率の良いVisual resamplerの開発は、将来のinstructionチューニングされたマルチモーダルモデルのスケールアップに道を開く可能性があります。

また、LLaVA-1.5は、instructionデータが不足していることと、コンテキスト長の制限により、複数の画像を処理する能力がまだありません。

次に、LLaVA-1.5は複雑な指示に従う能力を持っていますが、特定のドメインでの問題解決能力は限定的であることが分かります。
これは、より高い能力の言語モデルや高品質の目的志向のvisual instrucionチューニングデータを使用することで改善される可能性があります。

最後に、LLaVAはハルシネーションの傾向が大幅に減少しているにもかかわらず、ハルシネーションを生み出すことがあり、時折誤った情報を拡散することがあります。
そのため、医療など重要な用途での使用には注意が必要です。

おわりに（感想）

非常に面白い論文でした。
LLaVA-1.5は最近発表されたV＆Lモデルの中で最もインパクトのあるものの一つだと考えて良いと思います。
LLaVA-1.5で行われた工夫の中には、取り入れやすいものも多く、今後の参考になることでしょう。

ちなみにLLaVA-1.5のデモは以下のリンクから遊べます。
https://llava.hliu.cc/

……そのうちこういうスクリーンショットからキャラのステータスとか取得できるようになって欲しいな、あと日英マルチリンガルお願いします（他力本願寺）

「ウマ娘」のトレーニングメニューを入力し、この練習でステータスがどのくらい上昇するかを
質問したところ。今はまだ答えられないが、そのうち答えられるモデルが出てくることを
確信している。

References

Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee (2023). Improved Baselines with Visual Instruction Tuning. arXiv preprint arXiv:2310.03744, Retrieved from https://doi.org/10.48550/arXiv.2310.03744