見出し画像

【Ollama】Llama3.2-visionを試した話【ローカルVLM】

はじめに

Ollamaバージョン4.0からLlama3.2-Visionを利用できるようになりました。

VisionモデルとはLLM(Large Language Model)に視覚機能(Vision)をもたせたモデルです。図や写真を利用してLLMチャット等を利用できます。

しかしQwen2-VLと異なり、Llama3.2-Visionは日本語には非対応なので用途は限定的です。

導入

Ollamaコマンドでダウンロードします。Ollama公式リポジトリはこちら、

Windows版「OllamaSetup.exe」をダウンロード&実行すれば導入できます。

llama3.2-visionの取得コマンドです。

ollama pull x/llama3.2-vision

動作テスト

Ollama OpenWebUIを利用した動作確認です。※ コマンドラインでも利用可能です。ollama run x/llama3.2-vision

写真解析

AI生成画像です


パリ ノートルダム大聖堂の写真
浅草からのスカイツリー

数式・グラフ・表解析

数式の場合

数式を読み取れるかの確認です。

WIkipedia自由落下、Qwen2-vlのように数式は読み取れないようです

表の場合

llava-llama3と同じで、単純な表ならば、実用的に読み込めるようです。

単純な表

グラフの場合

この手の用途での実用的な精度は出ないようです。

グラフ引用:https://www.stat.go.jp/naruhodo/4_graph/shokyu/oresen-graph.html

ニュースサイト等

ニュースサイトのクリーンショットです。

llava-llama3と比べるとLLMの性能が良いので、画像と文章が混ざったデータの精度は良くなります。ただし、文章のみなら通常のOCRとさほど変らないかもしれません。

引用:https://www.bbc.com/newsのスクリーンショット

まとめ

Visionモデルは、日本語(文字)を読み込めないと用途が限られてしまいます。画像生成のプロンプト推測用途であれば、llava系(llava-llama3/phi3)の方が速度・メモリにおいて優れているので、あえてllama3.2-visionを利用する利点は少ないように思います。

以下、関連する記事の【PR】です。


いいなと思ったら応援しよう!