LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。
本研究では、先行研究と比較しながら、Gemmaファミリーの大規模言語モデルを使用して、マルチモーダル基盤モデル(MMFM)を訓練しました。特に、2BパラメータのGemmaモデルに注目し、能力のある小規模なMMFMを構築する機会を提供しました。他の論文での結果と一致するように、3つの設計要素の影響をテストしました:コネクタの事前学習、より強力な画像バックボーンの利用、および言語バックボーンのサイズの増加。結果として得られたLLaVA-Gemmaモデルは、さまざまな評価において中程度の性能を示しましたが、現在の同等のSOTAモデルを上回ることはありませんでした。性能の詳細な分析では、事前学習をスキップすると性能が低下する傾向があり、大規模なビジョンモデルは性能を向上させることがあり、言語モデルのサイズの増加は一貫性のない効果を示しました。
本研究の目的は、Gemma大規模言語モデル(LLM)のバリアントであるGemma-2BとGemma-7Bから訓練されたビジョン言語アシスタントのスイートであるLLaVA-Gemmaを紹介することです。私たちの研究は、LLaVA-Phiなどの小規模ながら能力のあるビジュアル言語モデル(VLM)の急速な進歩に触発されており、さまざまな言語理解タスクでの効率と効果を示しています。LLaVA-Gemmaは、同様に訓練された異なるサイズのLLMであるGemma-2BとGemma-7Bの公開リリースによって、小規模VLMの最適化に関する貴重な洞察を提供します。
本研究で使用したデータは、Gemmaファミリーの大規模言語モデル(LLM)を使用して訓練されたマルチモーダル基盤モデル(MMFM)です。具体的には、Gemma-2BとGemma-7Bの2つのバリアントを使用しました。これらのモデルは、異なるパラメータサイズを持ち、ビジュアルエンコーディングの能力の豊かさと計算効率のトレードオフを調査する機会を提供します。また、256kのユニークトークンを持つGemmaモデルの使用は、多モーダルパフォーマンスへの効果を調査する機会を提供します。
本研究で使用した手法は、LLaVAフレームワークを基にしていますが、いくつかの設計変更を加えています。このフレームワークは、事前学習されたビジョンエンコーダ(例:CLIP)と事前学習された言語モデル(例:Llama-2)を組み合わせて、MLPコネクタと2段階のトレーニング手法を使用してマルチモーダルモデルを構築します。最初のステージでは、ビジョンモデルと言語モデルを凍結し、CC3Mからフィルタリングされた59.5万のサンプルのカスタムデータセットでMLPコネクタを事前学習します。2番目のステージでは、言語モデルとコネクタを共同でファインチューニングし、カスタムの混合665kのマルチモーダルインストラクションチューニング例を使用します。このデータセットには、合成データとGQAやTextCapsなどの既存のビジョン言語トレーニングセットの例が含まれています。ただし、元のレシピからは、言語モデル、ビジョンエンコーダ、および事前学習ステージの3つの点で逸脱しています。
本研究の結果、LLaVA-Gemmaモデルを他のLMMのベンチマークと比較して評価しました。GQA、MME、MM-Vet、POPE、VQAv2、MMVP、ScienceQAの7つのベンチマークでの性能評価により、LLaVA-Gemmaモデルの性能に関する興味深いパターンが明らかになりました。特に、ビジョンエンコーダの選択とコネクタの事前学習の影響が明らかになりました。ビジョンエンコーダとしてDinoV2を使用することで、Gemma-2BバリアントはほとんどのベンチマークでCLIPバリアントよりも性能が向上しました。一方、Gemma-7Bバリアントでは、GQAとMMEで性能が向上する一方で、MM-Vet、POPE、VQA、ScienceQAで性能が低下しました。また、コネクタの事前学習をスキップすると、モデルの性能がほぼ常に低下することがわかりました。ただし、2B-DinoとMME Cognition、7B-CLIPとMME Cognition、MM-Vet、ScienceQAの組み合わせでは、事前学習をスキップしたバリアントの方が性能が向上しました。これらの結果は、Karamchetiらの仮説を支持していません。
この記事が気に入ったらサポートをしてみませんか?