お手軽ローカルLLMソフトOllamaで画像認識モデル llama3.2-vision 11b/90bが使えるようになったのでいくつか試し使い所を考察

秋葉原IT戦略研究所

2024年11月8日 23:13

お手軽ローカルLLMソフトOllamaに画像認識もできる llama3.2-visionが来たのでさっそく試します。

必要なマシンスペック

こちらに記載があります

Note: Llama 3.2 Vision 11B requires least 8GB of VRAM, and the 90B model requires at least 64 GB of VRAM.

11Bは MacBook M1 Airでもいけました
90BはVRAM64GBつんでないただのminiPCでメモリ64GBをつんでるやつでも動きました。遅いですが。

検証に使ったマシン

AI専用マシンではないminiPCを使っています、メモリは無駄に64G搭載しています。

MINISFORUM UM790Pro ミニpc
AMD Ryzen 9 7940HS
Windows 11 Pro
DDR5 64GB
Radeon 780M グラフィック RYZEN AI エンジン

llama3.2-vision 11b 検証 (これはM1 Macメモリ16Gでも動く)

>>> これは何の写真ですか　C:\Camera\DCIM\102NIKON\DSCN0183.JPG
Added image 'C:\Camera\DCIM\102NIKON\DSCN0183.JPG'
この写真には、黒と白のパターンをしている動物が写っています。それはどうやって得られたものでしょうか。

* この動物は長い毛を持っているので、近づくとその毛に触れられる可能性があります。
* また、その動物の体型から、この写真は撮影したときにこの動物が立っていないことがわかります。
～～～略
>>> 何の動物と推測できますか
これらのことから、この写真は動物園や動物園のような場所で撮影され、動物の一部である耳が写っているだけではなく、その他
の身体の一部も写っています。これは、動物の全体像として撮影されたことを示しています。

また、黒いパターンの部分があると思われ、これは動物の耳を表したものではないでしょうか。

これらのことから、この写真は動物園や動物園のような場所で撮影され、動物の一部である耳が写っているだけではなく、その他
の身体的一

>>> 推測される動物名のみを答えてください
**パンダです。**

>>> これは何の写真ですか　動物名も含めて答えてください　C:\Camera\DCIM\102NIKON\DSCN0499.JPG
Added image 'C:\Camera\DCIM\102NIKON\DSCN0499.JPG'
この写真にはタイガーが写っています。タイガーは、猫科に属する大型肉食性哺乳動物です。日本語ではタイガーと呼ばれ、英語
での正式名称はPanthera tigrisです。タイガーの生息地としては、インド、中国、ロシアなどがあります。また、タイガーには
さまざまな亜種が存在し、例えば、インドのタイガー、シベリアのタイガーなどと呼ばれます。タイガーは、他の動物よりも早く
走ることができ、その速度は時速70km以上にも及ぶこともあります。また、タイガーの尾には毛の束が付いており、これを用いて
、体温調節や捕食行動に役立てています。

llama3.2-vision 90b検証 (メモリ64GBいる）

\102NIKON\DSCN0499.JPG
Added image 'C:\Camera\DCIM\102NIKON\DSCN0499.JPG'
この画像は、**虎（とら）**です。

虎は肉食の哺乳類で、ネコ科の動物の一種であり、世界各地に生息しています。特徴的なのはその黒い縞模様で、体長は2m以上に
もなる大型の猫です。

この画像では、虎が歩いている様子が写されていますね。

消費CPUとメモリ

カードキャプターさくらはフィギュアでも認識できる

>>> これは何のイラストですか？キャラクター名がわかればそれも書いてください　　C:\Users\ganda\Downloads\51Qz-fnE5ML._AC_S
... L1000_.jpg
Added image 'C:\Users\ganda\Downloads\51Qz-fnE5ML._AC_SL1000_.jpg'
このイラストは、CLAMP（クランプ）による漫画作品「カードキャプターさくら」に登場する主人公である木之本桜（きのもとさ
くら）のイラストです。

この作品は1996年に初めて発売され、その後アニメ化もされた人気作品で、「カードキャプターさくらクリアカード編」という
続編が2018年1月より放送されています。

すげぇ・・・

ごちうさ、ぼっちザ・ロックは厳しい

この画像は**「まんがタイムきららMAX」2023年12月号**の表紙です。

表紙には、左側に**「ご注文はうさぎですか？」** のメインキャラクターである**チノ** が、右側に**「まちカドまぞく 2丁目
」の主役である**ひよこ**が描かれています。

これらの作品の作画には、**Koiと原悠衣**が担当しています。

この表紙は、まんがタイムきららMAXの2023年12月号で20周年を記念して、過去に人気だった作品のキャラクターが描かれたもの
です。

たぶん過去データをみている

料理の写真ー＞カロリー計算

この画像には、日本の牛肉と牛スジの焼き物（牛カルビ）が写っています。

**調理方法：**

* 牛カルビを薄く切ってタレに漬け込み、鉄板で焼く。\
タレは、醤油や砂糖、みりんなどから作ることが多いです。
* 塩コショウで味付けする場合もあります。

**栄養価値：**

* 1枚（約30g）あたりのカロリーは約150kcal前後とされています。
* カルビの脂質含有量が多いので、1回に食べる枚数を抑えて摂取することが大切です。

**おすすめのレシピ：**

この画像にあるような牛カルビを焼く際は、以下のようなレシピがおすすめです。

* **タレ**:\
牛カルビ用の醤油ベースのタレ（約200cc）に砂糖（大さじ3）とみりん（大さじ2）、酒（小さじ1）、塩コショウ少々を加え
ます。
* **調理方法**:

牛カルビを薄く切ってタレに漬け込み、約10分から15分ほど置きます。\
鉄板で高温で焼きます。\
焼き上がったら、ご飯の上にのせて盛り付けします。

**牛カルビの種類：**

* **スジカルビ（牛スジ）**:\
牛肉の内臓周辺部を骨から切り取って、一枚一枚にしたものです。柔らかい肉質で、風味豊かなスジが特徴的です。
* **ロースカルビ**:

スジより肉厚の部分で、牛カルビの中でも最も人気がある種類です。\
風味と歯ごたえがあり、脂肪分が少なくて健康的な部位です。

**参考サイト：**

[https://news.yahoo.co.jp/photos/61c1a0d8e9b4f3ddaf5ce5f6-orig.jpg](http://news.yahoo.co.jp/photos/61c1a0d8e9b4f3dd**[https://news.yahoo.co.jp/photos/61c1a0d8e9b4f3ddaf5ce5f6-orig.jpg](http://news.yahoo.co.jp/photos/61c1a0d8e9b4f3ddaf5ce5f6-orig.jpg)

[https://www.yamadaya.com/recipe/kalbi.html](http://www.yamadaya.com/recipe/kalbi.html)

>>> 総合カロリーのみを表示してください
牛カルビの総合カロリーは**約150kcal**です。

>>> 写真に写っている定食のすべての総合カロリーをだしてください
この写真に写っている定食の総合カロリーは、約**800kcal**です。

* 牛カルビ 4枚分　**150kcal×4=600kcal**
* 鉄板焼き野菜 **約100kcal**
* 豆腐　**20kcal**
* 白ご飯（小）**80kcal**

合計：**800kcal**

料理の作り方をきいてるんじゃない・・

ローカルLLMの画像認識の使い道・・やっぱりエロでしょ！

画像認識も日本語の精度が低いのでいまいち（牛タンがわからない）、過去のデータからの画像認識もいまいち（ぼっちザ・ロックがわからない）となると、イラストや写真にうつっている状態を説明することぐらいはできそうです。となればエロ画像、エロアニメ画像を読み込ませて、その状態をテキスト小説風にかいてもらう、イラストをもとに物語を書いてもらう・・そういった使い道はできそうです。

ということでとあるエロ画像を読み込ませてかいてもらいました。

>>>このイラストの情景について説明してください。"C:\Users\ganda\OneDrive\Pictures\Screenshots\スクリーンショット 2024-11
... -08 162753.png"
Added image 'C:\Users\ganda\OneDrive\Pictures\Screenshots\スクリーンショット 2024-11-08 162753.png'
この画像は、アダルトゲームやアニメなどの成人向けコンテンツを想起させる、性的な内容のイラストです。

男性が女性の上に乗っており、性的接触をしているように見えます。女性は赤いリボンをつけており、男性は白いシャツとパンツ
を着ています。背景には、ベッドやシーツなどの家具が描かれています。

このイラストは、成人向けコンテンツのスクリーンショットやイメージの一部である可能性があります。性的内容が含まれている
ため、年齢制限があるコンテンツであると推測されます。このような画像を閲覧する際には、適切な年齢や環境で行うことが重要
です。

>>> イラストの女性をさやか、男性をタケシとしてこのイラストを官能小説風にセリフもくわえてテキストで表現してください
**さやかの部屋**

さやかは、ベッドの上でうつ伏せになっていた。彼女の背中には、タケシの手が置かれていた。

～略

とはいえ無指示のテキストは書いてくれますがかなりシチュエーションを指定すると

I'm sorry, I cannot fulfill your request.
I'm not able to help with that subject.
I don't think I can continue this topic.
I'm not able to provide assistance with that.

がでてローカルLLMといえど怒られました