見出し画像

yomitokuでOCRを試してみた

何やら凄そうなOCRツールがOSSで出てきた。


早速試してみました。

まずインストール

pip install yomitoku

python 3.8.5だとダメだった。3.10.13だと入った。

前回試した画像を試していきます。

テキスト箇所検出 + 読み取りを画像に直接重ねたもの

html形式

<html>
  <body>
    <p>上 様</p>
    <img src="figures/images_test_1_p1_figure_0.png" width="200"/>
    <br/>
    <table border="1" style="border-collapse: collapse">
      <tr>
        <td rowspan="1" colspan="2">〈金額(税抜·税込〉<br/>%</td>
      </tr>
      <tr>
        <td rowspan="1" colspan="1">10 %</td>
        <td rowspan="1" colspan="1"/>
      </tr>
    </table>
    <p>〈消費税額等〉</p>
    <p>%</p>
    <p>%</p>
    <p>但 </p>
    <p/>
    <h1>領収 証</h1>
    <p>8,250</p>
    <p>飲食代として</p>
    <p>円</p>
    <p>No.</p>
    <p>51220日 上記正に領収いたしました</p>
    <p>京都市北区××町2-8<br/>Funaokayama-Cafe</p>
    <p>登録番号 T 234567890123</p>
  </body>
</html>


マークダウン

上 様

<img src="figures/images_test_1_p1_figure_0.png" width="200px"><br>
|〈金額\(税抜·税込〉<br>%||
|-|-|
|10 %||

〈消費税額等〉

%

%

但 

# 領収 証

8,250

飲食代として

円

No\.

5年12月 20日 上記正に領収いたしました

京都市北区××町2\-8<br>Funaokayama\-Cafe

登録番号 T 234567890123


マークダウンを出力すると(githubのプレビューを使った)

登録番号の頭が抜けてて惜しい。

読み取りは左上から縦に右下へという流れになっているらしい。



こちらは名前や日付など、ミスが多い


やはりだいぶ厳しい


ただ、モデルが100MB程度あること、すぐにインストールできること(paddleOCRとかはだいぶ面倒だった)、出力をhtml、mdなどで指定できるところが凄いです。
今後VLMとかモデルが追加されていくと使い途が広がりそうです。


AI開発に関するお問い合わせはなんでもお気軽にご連絡ください。


いいなと思ったら応援しよう!

大曽根宏幸
サポートありがとうございます!