AI-OCR Yomitoku を動かしてみる

日本語に特化したAI-OCRが公開されたので、触ってみようと思いました。
ただ、今使用している環境がだいぶ古い環境なので、動くかどうかはわかりませんが、やってみようと思います。

推奨環境は以下のとおり
CUDA 11.8以上
GPU VRAM 8GB以上

一方自分の環境は、
CPU:3930K
Mem:32GB
GPU:VRAM 6GB
VRAMが少ないのですが、動くかな~

グラボをのドライバを最新にし、CUDA Toolkit Archiveより、12.4.0をインストールしました。

cudnnもインストール 9.5.1.17を使いました。

記事よりデフォルトで12.4対応のyomitokuがインストールされるとのこと

py -m pip install yomitoku

conclift?(´・ω・`)と思ったら、pytorchそのものが入っていなかった。
しかしながら、torchもインストールできない。

バージョンを3.9.xに戻したら動きました。
この検証前に3.7.xだったのをpipのバージョンアップするために13に上げたのが失敗。

インストールできた!ついにyomitokuをインストール!

py -m pip install yomitoku

できた!

テストで動かしてみるために、ネット上に転がっていた適当な画像を使いました。

開発者さんのとおりに実行!

py -m yomitoku "R:\tegaki1.png" -f md -o results -v --figure

…とVSCode上で実行するとエラーが出るので、いったんexeから実行しました。

C:\Users\ower\AppData\Local\Programs\Python\Python39\Scripts>yomitoku.exe "R:\tegaki1.png" -f md -o results -v --figure

お!?resultsフォルダができてる!

おおー!動いてる!
VRAM6GBでもそんなに遅くありませんでした。1分も待たなかった。
とりあえず動作確認できたので、今日はここまで。


いいなと思ったら応援しよう!