OCR無しPDFからテキストを起こす

2023年5月20日 15:32

顧問替えのお客さんにお願いするのが、就業規則、賃金規定、パートタイマー就業規則など給与計算や助成金に必要な根拠書類です。

でもそんな会社、だいたい紙しかもっていなくて

データでもらえますか？って言ってもPDF

むしろwordでもらえてしまうと「最新版ですか・・・？」と気になってしまう・・・

なぜか紙媒体だと「最新版ですか・？」とは聞けない雰囲気。

ということで紙の就業規則をスキャナでスキャンしてOCRに起こしてワードにする方法を書いていきます。

イメージ的には、紙就業規則を全スキャン
pythonでPDFをpng化
png化した文字をデータに起こします。最後に整える感じかな。

自分がインストールしたのはpopplerってやつとTesseractです。

遊び半分でインストールしたけど、見事にテキスト化できたので面白い

これをTexに起こせれば一番いいのかなと・・・

いいなと思ったら応援しよう！