Google Colab で LLaVA-1.5 を試す
「Google Colab」で「LLaVA-1.5」を試したので、まとめました。
1. LLaVA-1.5
「LLaVA-1.5」は、画像分析も可能なマルチモーダルなオープンソースLLMです。11のベンチマークで最先端(SoTA)を達成しています。
2. Colabでの実行
Colabでの実行手順は、次のとおりです。
(1) パッケージのインストール。
# パッケージのインストール
!git clone https://github.com/haotian-liu/LLaVA.git
%cd LLaVA
!pip install -e .
(2) CLIでの実行。
初回実行時はモデルのダウンロードに時間がかかります。
!python -m llava.serve.cli \
--model-path liuhaotian/llava-v1.5-13b \
--image-file "https://llava-vl.github.io/static/images/view.jpg" \
--load-8bit
今回は、公式で提供されているサンプル画像を使います。
・view.jpg
(3) 質問応答。
「USER:」と表示されたら質問を入力します。