OCR無しPDFからテキストを起こす
顧問替えのお客さんにお願いするのが、就業規則、賃金規定、パートタイマー就業規則など給与計算や助成金に必要な根拠書類です。
でもそんな会社、だいたい紙しかもっていなくて
データでもらえますか?って言ってもPDF
むしろwordでもらえてしまうと「最新版ですか・・・?」と気になってしまう・・・
なぜか紙媒体だと「最新版ですか・?」とは聞けない雰囲気。
ということで紙の就業規則をスキャナでスキャンしてOCRに起こしてワードにする方法を書いていきます。
イメージ的には、紙就業規則を全スキャン
pythonでPDFをpng化
png化した文字をデータに起こします。最後に整える感じかな。
自分がインストールしたのはpopplerってやつとTesseractです。
遊び半分でインストールしたけど、見事にテキスト化できたので面白い
これをTexに起こせれば一番いいのかなと・・・