資料の電子化

2023年6月15日 23:20

DXDXと叫ばれる時代、
これまで紙ファイルに閉じられてきた紙資料について
電子化し、更にその内容について検索出来るように出来ないかについて考えてました。

コピー機などでスキャンされたPDFについては
そのままでは文字として認識してくれないですよね〜
(ctrl + F で検索できないｯｯ)

それを解決する技術が、OCR処理です。
OCRについて、ｼﾞﾋﾞﾃｨｰさんに説明してもらいます。

OCR（Optical Character Recognition）は、光学的な文字認識と訳される技術で、印刷されたテキストをデジタルデータとしてコンピュータで扱える形式に変換することを指します。つまり、手書きではなく印刷された文字をスキャンして、コンピュータが理解できるテキストデータに変換することができるのです。

OCRは、さまざまな場面で活用されます。たとえば、書類や本のスキャンデータをテキスト化する際に使われます。OCRを使うと、紙の文書をスキャンして、テキストデータとして保存することができます。このテキストデータは、検索や編集、自動化された処理などに活用することができます。

では、OCRの処理の流れを簡単に説明しましょう。

1. スキャンまたは写真撮影: OCRの最初のステップは、印刷されたテキストが含まれる書類や紙をスキャンまたは写真撮影することです。スキャナやカメラを使って、書類全体または必要な部分を撮影します。

2. 画像の前処理: 次に、撮影した画像をコンピュータで処理します。画像の明るさやコントラストの調整、ノイズの除去、歪みの修正などが行われます。これにより、後の文字認識の精度を向上させます。

3. 文字認識: 画像の前処理が完了したら、OCRソフトウェアが画像内の文字を認識します。これは、文字の形状、パターン、配置などを解析することで行われます。ソフトウェアは、文字を識別し、テキストデータとして抽出します。

4. テキストの後処理: 文字認識が行われた後、抽出されたテキストデータに対して後処理が行われることがあります。これには、文字の修正や補完、書式設定の調整などが含まれます。目的に応じて、テキストデータをさらに加工することもできます。

5. 出力: 最終的に、OCR処理されたテキストデータが出力されます。これは、テキストファイルやワードプロセッサの文書などの形式で保存されます。

このように、OCRは印刷されたテキストをデジタルデータに変換する技術です。スキャンや写真撮影した画像から文字を認識し、テキストデータとして取り出すことで、文書の電子化や自動処理を容易にすることができます。

以上、ｼﾞﾋﾞﾃｨｰさんの説明です。

自らでGooglecolaboratory で出来ないかいくつか試して見ましたが、まだモノにならないですね…。

ご存知の通り、既にOCR処理をしてくれる変換ソフトはいくらでもありますので、私がやってる事は車輪の再発明に過ぎませんね…笑
というか！実際私もOCR処理ソフトを利用してます。
「PDFelement」⤵︎ ︎

https://pdf.wondershare.co.jp/ad/pdfelement-brand.html?utm_source=google&utm_medium=cpc&utm_campaign=pdfdsa&utm_content=&gclid=Cj0KCQjw7aqkBhDPARIsAKGa0oLt2_QpVKDWe796PNQxIhI_tNrxJCavNcSNxFUsycxqZl-xW0ScragaAhkYEALw_wcB

細かい潰れた文字や手書き文字などについては認識難しいですが、概ね満足です。キーワードだけでもOCRしてくれると、そこまでJUMP出来るわけで「調べる」事ができます。

今では有料版が多く出回ってますが、
時代の流れも早くいずれは無料になることでしょう。

しかし、紙ファイル資料をそのままにする訳にもいかないので今行動してる訳ですね…。

今後はOCRしたPDFデータにタグ付けし、
任意のフォルダに自動振り分けが出来れば、したい事がほぼ自動化が出来ますのでそれを目標にしてます。
(なにかいいアイデアありましたら教えてください🙇‍♂️)

以上、本日もありがとうございました🍋

この記事が気に入ったらサポートをしてみませんか？