![見出し画像](https://assets.st-note.com/production/uploads/images/163439880/rectangle_large_type_2_d9cbb2a4f837b17caa41aa312853eea9.png?width=1200)
yomitokuでOCRを試してみた
何やら凄そうなOCRツールがOSSで出てきた。
早速試してみました。
まずインストール
pip install yomitoku
python 3.8.5だとダメだった。3.10.13だと入った。
前回試した画像を試していきます。
![](https://assets.st-note.com/img/1732685550-rHauzlWByYcoAxe0n3MkXC7Z.png?width=1200)
テキスト箇所検出 + 読み取りを画像に直接重ねたもの
![](https://assets.st-note.com/img/1732685605-OJ5pZMTtW7XG3kb6K8sPV4FE.jpg?width=1200)
html形式
<html>
<body>
<p>上 様</p>
<img src="figures/images_test_1_p1_figure_0.png" width="200"/>
<br/>
<table border="1" style="border-collapse: collapse">
<tr>
<td rowspan="1" colspan="2">〈金額(税抜·税込〉<br/>%</td>
</tr>
<tr>
<td rowspan="1" colspan="1">10 %</td>
<td rowspan="1" colspan="1"/>
</tr>
</table>
<p>〈消費税額等〉</p>
<p>%</p>
<p>%</p>
<p>但 </p>
<p/>
<h1>領収 証</h1>
<p>8,250</p>
<p>飲食代として</p>
<p>円</p>
<p>No.</p>
<p>5年12月 20日 上記正に領収いたしました</p>
<p>京都市北区××町2-8<br/>Funaokayama-Cafe</p>
<p>登録番号 T 234567890123</p>
</body>
</html>
マークダウン
上 様
<img src="figures/images_test_1_p1_figure_0.png" width="200px"><br>
|〈金額\(税抜·税込〉<br>%||
|-|-|
|10 %||
〈消費税額等〉
%
%
但
# 領収 証
8,250
飲食代として
円
No\.
5年12月 20日 上記正に領収いたしました
京都市北区××町2\-8<br>Funaokayama\-Cafe
登録番号 T 234567890123
マークダウンを出力すると(githubのプレビューを使った)
![](https://assets.st-note.com/img/1732685774-0oHqFJUCQOv9jgiEcfywmpXW.png?width=1200)
登録番号の頭が抜けてて惜しい。
読み取りは左上から縦に右下へという流れになっているらしい。
![](https://assets.st-note.com/img/1732686599-iZYJC4qtEbD3AWOU2ahlm7QL.jpg?width=1200)
こちらは名前や日付など、ミスが多い
![](https://assets.st-note.com/img/1732686836-LzcXZCdS6sRNEOlom7Ga1VB5.jpg?width=1200)
![](https://assets.st-note.com/img/1732686924-gesU71f5XbchqMH0V3dSpzJy.png?width=1200)
やはりだいぶ厳しい
ただ、モデルが100MB程度あること、すぐにインストールできること(paddleOCRとかはだいぶ面倒だった)、出力をhtml、mdなどで指定できるところが凄いです。
今後VLMとかモデルが追加されていくと使い途が広がりそうです。
AI開発に関するお問い合わせはなんでもお気軽にご連絡ください。
いいなと思ったら応援しよう!
![大曽根宏幸](https://assets.st-note.com/production/uploads/images/39324531/profile_5fdc163048269f1f99764e801d03313f.png?width=600&crop=1:1,smart)