AI-OCR Yomitoku　を動かしてみる

2024年11月28日 00:16

日本語に特化したAI-OCRが公開されたので、触ってみようと思いました。
ただ、今使用している環境がだいぶ古い環境なので、動くかどうかはわかりませんが、やってみようと思います。

推奨環境は以下のとおり
CUDA 11.8以上
GPU VRAM 8GB以上

一方自分の環境は、
CPU:3930K
Mem:32GB
GPU:VRAM 6GB
VRAMが少ないのですが、動くかな～

グラボをのドライバを最新にし、CUDA Toolkit Archiveより、12.4.0をインストールしました。

cudnnもインストール　9.5.1.17を使いました。

記事よりデフォルトで12.4対応のyomitokuがインストールされるとのこと

py -m pip install yomitoku

conclift？(´･ω･`)と思ったら、pytorchそのものが入っていなかった。
しかしながら、torchもインストールできない。

バージョンを3.9.xに戻したら動きました。
この検証前に3.7.xだったのをpipのバージョンアップするために13に上げたのが失敗。

インストールできた！ついにyomitokuをインストール！

py -m pip install yomitoku

できた！

テストで動かしてみるために、ネット上に転がっていた適当な画像を使いました。

開発者さんのとおりに実行！

py -m yomitoku "R:\tegaki1.png" -f md -o results -v --figure

…とVSCode上で実行するとエラーが出るので、いったんexeから実行しました。

C:\Users\ower\AppData\Local\Programs\Python\Python39\Scripts>yomitoku.exe "R:\tegaki1.png" -f md -o results -v --figure

お！？resultsフォルダができてる！

おおー！動いてる！
VRAM6GBでもそんなに遅くありませんでした。1分も待たなかった。
とりあえず動作確認できたので、今日はここまで。

いいなと思ったら応援しよう！