yomitokuでOCRを試してみた

2024年11月27日 14:59

何やら凄そうなOCRツールがOSSで出てきた。

早速試してみました。

まずインストール

pip install yomitoku

python 3.8.5だとダメだった。3.10.13だと入った。

前回試した画像を試していきます。

テキスト箇所検出 + 読み取りを画像に直接重ねたもの

html形式

<html>
  <body>
    <p>上 様</p>
    <img src="figures/images_test_1_p1_figure_0.png" width="200"/>
    <br/>
    <table border="1" style="border-collapse: collapse">
      <tr>
        <td rowspan="1" colspan="2">〈金額(税抜·税込〉<br/>%</td>
      </tr>
      <tr>
        <td rowspan="1" colspan="1">10 %</td>
        <td rowspan="1" colspan="1"/>
      </tr>
    </table>
    <p>〈消費税額等〉</p>
    <p>%</p>
    <p>%</p>
    <p>但 </p>
    <p/>
    <h1>領収 証</h1>
    <p>8,250</p>
    <p>飲食代として</p>
    <p>円</p>
    <p>No.</p>
    <p>5年12月 20日 上記正に領収いたしました</p>
    <p>京都市北区××町2-8<br/>Funaokayama-Cafe</p>
    <p>登録番号 T 234567890123</p>
  </body>
</html>

マークダウン

上 様

<img src="figures/images_test_1_p1_figure_0.png" width="200px"><br>
|〈金額\(税抜·税込〉<br>%||
|-|-|
|10 %||

〈消費税額等〉

%

%

但 

# 領収 証

8,250

飲食代として

円

No\.

5年12月 20日 上記正に領収いたしました

京都市北区××町2\-8<br>Funaokayama\-Cafe

登録番号 T 234567890123

マークダウンを出力すると（githubのプレビューを使った）