お手軽ローカルLLMソフトOllamaに画像認識もできる llama3.2-visionが来たのでさっそく試します。
最新のOllamaを用意
llama3.2-visionにあわせてOllamaもversion0.4に上がっているので
Windowsの場合は最新を落としてきてクリックすれば自動的にアップデート。
Macの場合はアプリケーションの上書きでいけました。
必要なマシンスペック
こちらに記載があります
11Bは MacBook M1 Airでもいけました
90BはVRAM64GBつんでないただのminiPCでメモリ64GBをつんでるやつでも動きました。遅いですが。
検証に使ったマシン
AI専用マシンではないminiPCを使っています、メモリは無駄に64G搭載しています。
llama3.2-vision 11b 検証 (これはM1 Macメモリ16Gでも動く)
llama3.2-vision 90b検証 (メモリ64GBいる)
消費CPUとメモリ
カードキャプターさくらはフィギュアでも認識できる
ごちうさ、ぼっちザ・ロックは厳しい
料理の写真ー>カロリー計算
ローカルLLMの画像認識の使い道・・やっぱりエロでしょ!
画像認識も日本語の精度が低いのでいまいち(牛タンがわからない)、過去のデータからの画像認識もいまいち(ぼっちザ・ロックがわからない)となると、イラストや写真にうつっている状態を説明することぐらいはできそうです。となればエロ画像、エロアニメ画像を読み込ませて、その状態をテキスト小説風にかいてもらう、イラストをもとに物語を書いてもらう・・そういった使い道はできそうです。
ということでとあるエロ画像を読み込ませてかいてもらいました。
とはいえ無指示のテキストは書いてくれますがかなりシチュエーションを指定すると
がでてローカルLLMといえど怒られました