先にLoRAをしましたが、OCRの精度も試してみました。
同じくms-swiftを使います。
コマンド
CUDA_VISIBLE_DEVICES=0 swift infer --model_type qwen2-vl-7b-instruct
入力を受け付けるので続けて以下を2回に分けて入力
<image>Perform OCR on the image.
{画像のパス}
まずは領収書を入れてみる
画像は検索して見つけたこちらをとりあえず
結果
%が少ない?けどほぼ合ってる。すごい。
次はかなり難しそうなこれ
手書きの2022年を2052年と読み間違えている。
人間なら過去だとわかるはずだけどその類推が働かなかったみたい。
税率8%対象額も空欄に
◯で囲っているかどうかを出させるのには工夫が入りそう。
もう少し簡単そうな画像で
1〜3は合っているけど、それ以降は難しい。
というか人間でもビルの名前読めない。
次は報告書
今まで大丈夫だったのに急に英語に
日本語で指示しなおす。
消費税がミスっているけど、そもそも例の画像がミスっていた。
あとは完璧。
めちゃくちゃ難しそうなこちら
終わらなくなってしまった。割とホラー。
72Bならどうかと思ってspacesの方に投げてみた結果が以下。
結構適当な結果に。
やはり、これで全部解決ってわけではなく、OCRサービス全体としての設計や運用が大事になりそうでした。
そもそも手書きでログを残さないことが重要感。
VLM以外のOCR技術もありますので、OCRをやりたい方はお気軽にお問い合わせください!