
【Ollama】誰でも簡単にローカルLLMを呼び出せるオープンソースで画像認識してみた
こんにちは、IZAIエンジニアチームです。今回はローカルLLMを簡単に扱えるツール「Ollama(オー・ラマ)」を使ってローカルでの画像認識を試します。
Ollama(オー・ラマ)・・・Llama3などのOSS言語モデルのダウンロード、実行、作成、カスタマイズが簡単にできるオープンソースのツールで、非常に簡単に手元のPCでLLMを試すことができます。
MITライセンスで公開されています。
今回はそんなOllamaを使って、画像入力に対応した視覚モデル「llama3.2-vision」を動作させてみます。
検証環境
OS: MacOS Sequia
CPU: M3 Pro
RAM: 18GB
1. Ollamaをインストール
公式ページからインストールしてください
2. まずはテキストで質問
ollama run llama3.2

↑スカイツリーの竣工年は2012年で正しいですが、ブルジュ・ハリファは×2019年ではなく2010年完成です。ハルシネーションが発生しています。
3. 画像を入力してみる
それでは続いて画像の入力を試します。今回はLlama 3.2 Vision を使用します。デフォルトでは11Bモデルが選択されます。
ollama run llama3.2-vision
実験1. スーパーマーケット

この画像には、果物の売り場で販売されているリンゴやオレンジなどが写っています。写真の左側には、店員が客と話し合っている様子も見えます。
画像では、アップルのみが多く映っており、その中でもグランニ・スミスアップルが特に多い様子です。アップルは世界中で食べられている果物の一つであり、食事の材料としてよく使われています。アップルには様々な種類があり、それぞれの特徴や味を楽しむことができます。
この画像を見ると、アップルの様々な種類とその美しさに感動することはありませんか?
実験2. レシート

このレシートは、店舗によって異なるですが、基本的に以下のような情報が記載されています。
・店名:店の名前
・購入日時:購入した日付と時間(2020年05月15日(金)15:26)
・レジ番号:レジの番号(0001)
・取扱店舗コード:店舗のコード(0001)
・商品名:購入した商品の名前(アロマディフューザー)
・数量:購入した数
・小計:各商品に対する金額(110円)をすべて合計したもの
・税込金額:消費税込みの価格(110円)
・合計金額:税込み金額にサービス手数料等を加算して算出した総金額(0円)
・お釣り:お釣りとして得られる金額
・店舗コード:店舗の番号(0001)
・支払い方法:支払った方法(現金またはクレジットカード)
・支払い人:購入者名および連絡先情報(注)
お釣りの金額が0であることは、税込み価格にサービス手数料等を加算した結果であります。
このレシートの場合、税込み価格は110円ですが、サービス手数料等により合計金額は0円となり、購入者には100円のお釣りが得られました。
実験3. 信号機

この写真は、横浜市の交差点で取られたものと思われます。
左側に表示されている「回し折り禁止」標識と、その上にある方向別通行区分の路面標識(右向き)の色が青色であることから、横浜市内の交差点では右向きを先頭とする交替信号制御が施行されていて、左向きの車両は右向きの車両に先後して通行する必要があります。
また、上部には「時計回り」という標識もあり、これは横浜市内の歩行者専用道路上で使用される信号灯やマークであることから、この交差点は歩行者専用道路ではないことがわかります。
4. まとめ
以上、M系MacBook1台でVisionモデルを動作させることができました。
GPT-4oなどのクラウドベースの巨大なVision対応モデルと比較すると性能は大きく劣りますが、従来のOCRでは対応が難しい認識ができているように見えます。
特に、信号機の画像では見切れた看板から「横浜」の文字を推測しており、従来のOCRでは不可能な推定を可能にしています。
またレシート画像についても従来のOCRに比べて、一部ハルシネーションあるものの、必要な要素を的確に抽出できているようにみえますね。
今後ローカルマシン自体の性能アップやモデル自体の高効率化によって、手元のマシンやエッジデバイスで非常に高度な画像認識ができる日も近いかもしれません。
最後に
IZAIでは対話型音声AIの社会実装を目指して日々開発をしています。
興味のある企業様、エンジニア、学生はお気軽にHPよりお問い合わせください。
参考になった方はぜひ「いいね」「コメント」をよろしくお願いします!執筆の励みになります