DAY１　：　PDFの読み取りはどうする？

2023年10月19日 11:27

今回の業務自動化の流れを簡単にまとめてみたら、それぞれの捨てpp-腕しなければならないことが明確になってきた。
今日はそれについてまとめたいと思います。

※注意！完全初心者からのスタートですので、あまりにも初歩的なミスとか勘違いもあると思います。その辺はどうかご容赦を。

自動化の際のフロー

今回の全自動申請システム（とでも名付けようか）を構築していくにあたってまずは、実際に導入したときの業務のフローが必要だろうと、知り合いからアドバイス。
知り合いも手伝ってくれるとのことですが、これも私と同じく完全初心者でエンジニアでも何でもない、技術的一般ピープル。
それでも、一人で悩むよりはいいかと思ってたところ、ありがたいアドバイスです。

今考えていることが実現できるとしたら次のようなフローになるのではと（一人ほくそえんで）わくわくしてます。

（宅建）
住民票、宅建取引士証、株主リストや直近の決算書などLINEまたは専用ホームページにアップする。
↓
送付されたデータを、OCR等で読み込み、いったんエクセルやスプレッドシートに情報を抜き出す
↓
スプレッドシートの情報をチェック
足りない書類等は自動でお客様にリマインドする。
同時に保証協会の案内も出したうえで、選んでもらう
↓
スプレッドシート等から申請書類に転記
↓
最終チェックを人力及びAIで行う
↓
申請書類完成

簡単に書いたらこんな流れになればいいんじゃないかと思う。
足りない部分があったらコメントください。

第一のステップは？

ここで一番重要になるのは、PDFをOCRで読み取る際の情報の振り分けではないかと思います。

住民票など各地方自治体で形式も違うし、何なら用紙の大きさも違う。
これを正確にどこまで読み取れるものかちょっと心配。

さらに読み取ったデータを、該当するエクセル等のセルに振り分けを自動でするにはAIの精度もとても重要。

ちなみにOCRって何？
いつものAIアシスタントに聞いてみました。

回答は以下の通り。

- OCRとは、Optical Character Recognition（光学式文字認識）の略称で、画像や印刷物などの文字を読み取り、テキストデータに変換する技術です。これにより、手書きの文字や印刷物のテキストをコンピューターで編集や検索ができるようになります。
- OCRは、ビジネスの効率化や生産性向上に役立ちます。例えば、大量の書類を手作業でデータ入力する必要がある場合、OCRを使用することで作業時間を大幅に短縮することができます。
- OCRは、教育分野でも活用されています。例えば、教科書や参考書のテキストをスキャンしてOCRで変換することで、テキストをコンピューターで表示・編集することができます。これにより、生徒たちはテキストを自分のペースで学習することができます。
- OCRは、身分証明書やパスポートなどの個人情報を含む重要な文書の管理にも役立ちます。OCRを使用することで、文書のスキャンやデータベース化を容易に行うことができます。また、OCRによって自動的に個人情報をマスキングする機能も搭載することで、情報漏洩のリスクを低減することが可能です。
- OCRは、医療の分野でも活用されています。例えば、処方箋や検査結果などの医療文書をOCRで読み取ることで、データベース化や電子的な記録管理を行うことができます。これにより、医療情報の共有や患者の治療計画において効率化が図られます。

おお、OCRで個人情報を含む重要な文書の管理はできるのか。
思い描いていたことが出来そうな予感で一歩前進。

データベース化を容易に行えるって書いているので、取り急ぎ自分の運転免許証をOCRで読んでみた。

とりあえずAdobeでスキャンとOCRってやつ試してみた。
これで、検索等ができるようになったはず！

・・・あれ、裏面の「備考」って文字もちゃんと検索できない。
たった表裏だけなのに、検索できないってなんや！
大量の文書OCRしても、検索できないんやったらあかんのちゃうか！

いきなりうまくいかないことで悩む。
食べる
そして太る。

秋の悪循環まっしぐらです。

PDFについて調べてみないといかんかも。
せっかくなので、ChatGPTさんにご登場いただこう。

「PDFでOCRしたけど文字の検索ができません。考えられる理由は何ですか？」
こんなプロンプトでいいのかな？
とりあえずGO。

ChatGPT先生より突き付けられる現実

かえってきたよ、答えが。
もう絶望って感じ。

PDFでOCR（光学文字認識）を実行しても、文字の検索ができない場合、いくつかの理由が考えられます。以下に、可能性のある理由とそれに対する解決策をいくつか示します。

OCRが正しく実行されていない：
- OCRソフトウェアが適切に設定されていることを確認してください。選択した言語や文字の種類に合わせてOCR設定を調整する必要があります。
- OCRソフトウェアが文書を正しく読み取っていることを確認し、テキストレイヤーに変換されているかどうかを確認します。
文字が埋め込まれていない：
- OCRを実行する前に、元のPDF文書にテキストが埋め込まれていることを確認してください。スキャンされたイメージをOCRで変換する必要があります。
PDFの検索機能が無効になっている：
- 一部のPDFビューアは、デフォルトでPDF内の検索機能を無効にしていることがあります。ビューアの設定で検索機能を有効にしてみてください。
PDFファイルが壊れている：
- PDFファイル自体が壊れている可能性があるため、他のPDFビューアで試してみてください。また、元のPDFファイルが破損しているかもしれません。
OCRの品質が低い：
- OCRソフトウェアやサービスによって、認識されたテキストの品質が異なります。品質の高いOCRツールを使用するか、設定を調整して認識精度を向上させてみてください。
文字のエンコードが適切でない：
- 文字のエンコードが正しく設定されていない場合、検索ができないことがあります。文字のエンコードを確認し、適切に設定されていることを確保してください。

以上の理由の中から、問題の具体的な原因を特定し、適切な対策を取ることが重要です。必要に応じて、別のOCRソフトウェアやサービスを試してみることも考えてみてください。また、PDFビューアの設定を確認して、検索機能が有効になっていることを確認することも大切です。

ひょっとしたらOCRの品質なのか？それは詰んでしまうぞ。
エンコードが適切でないか？
検索機能が無効なのか。

取り急ぎ検索機能を確認してみる。

ONなってるわ、あかん。

スキャンされたファイルを補正ってやつがあるので試してみる。

やっぱりあかん。
なんでか？

精度の高いOCRはどれ？

取り急ぎ今使っているOCRの精度が低いのが問題なのかについて考えてみる。
Google先生の登場！

検索したらAI-OCRなるものが！！
AIの技術を駆使したOCRとのことで、これは期待できそう。

なんでも手書きや癖のある文字でも読むことができるようになるそう。
これは一歩前進だ。

酒類は二種類あるようで、読み取りに特化したものと確認修正に対応したもの。

とりあえず、読み取る部分が重要なのでどちらでもいいのかな？

ポイントとなるのは帳票の仕分け機能が備わっているかどうか。
もはやこうなってくると、専門家に聞くしかないのかも。

これで明日以降のポイントはわかった気がする、たぶん。
少し早いかもだけど専門家に聞いてみようか。

また同じように業務の自動化に興味がある方募集してます。
いろいろと指摘しあいながら最高のシステムを作っていきませんか？