
士業の方々へ。AI-OCRの勧め。
はい、こんにちは。
猫背とストレートネックのダブルパンチで、最近は逆腹筋にハマり中、目指せウエスト-6cm!(…って、いつ達成できるのやら…)な行政書士の辻です。
さてさて、しょうもない冗談は置いといて、本題に入りましょうか。
「ちょ、先生!まさか、その書類の山、全部手打ちするつもりじゃないですよね…?」
時は令和ですよ、令和。
士業の先生方、いまだに紙の書類とガチンコ勝負、本当にお疲れ様です…!
お客さんから渡された手書きの申請書、役所の年季の入った資料…。
「デジタル化?なにそれ美味しいの?」状態になってませんか?
もし、あなたが「OCR?…ああ、目の検査のやつね」とか思っちゃったなら、この記事は絶対に見逃しちゃダメです。
え?「OCRは知ってるけど、なんか難しそう…」って?
だったら、なおさら必読ですよ。
実は、あのGoogle様が開発した天才AI「Gemini」を使えば、ビックリするくらい簡単に、OCRができちゃうんですって。
もう、時間と体力を無駄にするのは終わりにしましょう。
この記事を読んだら最後、あなたも今日から「脱・手入力」を宣言!
はい、AIはこういう文章を一瞬で書いてくれます。
ChatGPTが出たばかりのころも、私は遊んでいましたが、正直、実務で使えるレベルには程遠いものでした。
しかし、今はがらりと状況が変わりました。
AIは、もう「お仕事の相棒」としてバリバリ使えるレベルに進化してるんです。
事務作業がかなり多い士業にとって、これを使わないという手は、もうありません。
今回はその中でもAI-OCRの話をします。
0、AIのセキュリティをまず考える
AIをビジネスで使うってことは、お客さんの個人情報を扱うってことです。
個人情報保護法については、別で、しっかり勉強して頂きたいのですが、、、
とりあえず、最初にチェックすべきは、「AI提供会社が、プロンプトに入力した情報を見るのか見ないのか 」ということです。
(プロンプトを学習に使わないのは、当然で、見るか見ないかが重要!)
もし、AI提供会社がプロンプトを見るなら、それは個人情報の提供にあたります。(この辺の詳しい話は、弁護士先生の解説をみましょう)
もちろん、プライバシーポリシーをちゃんと改定して、お客さんに承認してもらえば、情報を提供すること自体は可能です。
でも、毎回毎回、承認をもらうのは面倒だし、
いくら個人情報保護の研修を受けた人たちとはいえ、生身の人間に見られるのは、ちょっと怖いかなと思います。
そんなこんなで、AI提供会社がプロンプトを見ないとハッキリ書いてある契約を選ぶ必要があると思います。
そうやって調べてみると、個人契約のアカウントでは難しい場合が多く、法人契約が必要になることが多いです。
例えば、OpenAIの場合、「Team」プランじゃまだダメで、「Enterprise」プランじゃないとダメになります。
例えば、以下のサイトで、こう書いてあります。
https://openai.com/ja-JP/enterprise
*Enterprise契約では、
『OpenAI 内では、インシデントの解決およびエンドユーザーの会話の復元(お客様からの明示的な許可を要します)を目的に、または適用される法律上の義務である場合にのみ、承認を受けた従業員がお客様の会話にアクセスします。』
*Team契約では、
『OpenAI 内では、当社システムに保存された会話へのアクセスは、以下の者に限定されます:(1)エンジニアリングサポートの提供、プラットフォーム悪用疑いの調査および法令遵守のためにアクセスを必要とし、その承認を受けた従業員、(2)機密保持とセキュリティに関する義務の拘束を受け、悪用・誤用の検証だけを行う専門の第三者請負業者。』
このように、仕事で個人情報をAIで扱おうとすると、プライバシーポリシー、セキュリティをしっかり確認することが必要です。
1、Google workspaceがなかなかイイ感じだった
色々調べましたが、だいたいのAI提供会社のエンタープライズ契約は「要相談」となっていて、値段が書いていません。
一方、Google workspaceは、「Buisiness Standard」であれば、
Gemini Advancedが使えるようになりますし、年契約だと月額1,600円と値段が明記されているのが嬉しいです。
https://workspace.google.com/pricing?hl=ja
これには、Googleドライブ2Tとか、PDFの電子証明とか、スーパー便利なNotebookLMのPlusが使えるとか、とかとか…付随するサービスも満載です。
私は個人的にDeepLに課金していたので、申し訳ないけどこちらの契約を切って、Googleに変更しました。
(他の便利な機能に関しては、またレビュー記事を書こうと思います。)
*なお、セキュリティに関しては、こちらの記述があります。
お客様のコンテンツが他のお客様のために使用されることはありません。 お客様のコンテンツは、人間によってレビューされることも、許可なくお客様のドメイン外で生成 AI モデルのトレーニングに使用されることもありません。
2、AI-OCRのココが凄い
OCRという技術は、今もあちらこちらで使われています。
ただ、基本的には定型の文章じゃないと、欲しい情報の読み取りが出来ません。
士業が扱う書類は殆どが不定形じゃないですか?
例えば、住民票や住民税課税証明書や納税証明書などは、自治体毎に形式が違います。
*これ何とかしてほしいです。切実に。
このような不定形で、様式がバラバラの物から、欲しい情報だけOCRするのは、既存のソフトウェアではなかなか出来ませんでした。
しかし、AI-OCRは、人間の目みたいに、情報を読み取って、それが欲しい情報なのかどうかを考えてくれます。
手書きの書類も余裕です。
かなりの正確さで読み取ってくれるわけです。
書式が不定形、欲しい情報がバラバラ、手書き…。
そういうバーリトォードに強いのがAI-OCRです。
3、実際にどうやって読み取るの?
私は実際に以下のプロンプトを使って、依頼人の資料を読み取っています。
資料を全部プロンプトに突っ込んで、この命令を出すだけです。
アップロードした資料から、以下の情報を読み取り、CSVファイルでダウンロードできるようにしてください。
1、区切り文字は「タブ(\t)」です。
2、指定された情報に該当するものが無い場合は、「null」としてください。
3、出力は、例のように縦にして下さい。
例:
国籍 米国
名前 辻󠄀
【パスポートから読み取る情報】
国籍(日本語の国籍名にして下さい):
名前(形式:スペース区切りを全て「,」に変更):
性別(男なら1,女なら0):
誕生年(形式:yyyy):
誕生月(形式:mm):
誕生日(形式:dd):
パスポート番号:
パスポート期限年(形式:yyyy):
パスポート期限月(形式:mm):
パスポート期限日(形式:dd):
出生地:
【住民票から読み取る情報】
住所(形式:全角):
家族の情報(全ての家族に関して)
名前(形式:全角):
続柄:
同居有無(情報が無くても、1を入れて下さい)
国籍:
誕生年(形式:yyyy):
誕生月(形式:mm):
誕生日(形式:dd):
通学先名称:
在留カード番号
【在留カードから読み取る情報】
国籍(日本語の国籍名にして下さい):
名前(形式:スペース区切りを全て「,」に変更して):
在留資格:
在留期限(例:1年なら0100000、3年なら0300000):
満了年(形式:yyyy):
満了月(形式:mm):
満了日(形式:dd):
在留カード番号:
住所(裏面の最新の住所、形式:全角):
【卒業証明書から読み取る情報】
卒業大学名(日本語なら全角、英語ならそのまま):
卒業年(形式:yyyy):
卒業月(形式:mm):
卒業日(形式:dd):
卒業学部名(日本語なら全角、英語ならそのまま):
【納税証明書から読み取る情報】
名前:
納付すべき額(単位:千円):
普通徴収か特別徴収か(普徴、特徴と書いてある場合もある):
【課税証明書から読み取る情報】
名前:
給与収入額(単位:万円):
総所得合計(単位:万円):
【履歴書から読み取る情報】
学歴や職歴の名称(免許や資格の情報は要りません):
それと対応する年(形式:yyyy):
それと対応する月(形式:mm):
【契約書から読み取る情報】
会社の名前(形式:全角):
勤務する住所(形式:全角):
【履歴事項全部証明書から読み取る情報】
最新の資本金(数字に直してください):
【損益計算書から読み取る情報】
総売上高(単位:万円):
【在職証明書から読み取る情報】
会社名(形式全角):
会社住所(形式全角):
会社電話番号(ハイフン無し):
入社日(形式:yyyy/mm/dd):
【身元保証書から読み取る情報】
身元保証人の氏名(形式全角):
職業:
住所(形式:全角):
電話番号(形式:ハイフン無し):
国籍(日本語の国籍名にして下さい):
被保証人との関係:
なぜ、名前をコンマ区切りにしたり、生年月日をyyyy、mm、ddで分けたりするのかは、在留資格オンライン申請をしたことがある方には、すぐお分かりかと思います。
同居親族とか、住民票だけ読ませれば終わるというのはめっちゃ良いです。
*勤務先とか入らないけどね…。
卒業証明書とか、あのヒゲ文字アルファベットも難なく読んでくれました。
まだ、このプロンプトも改良の余地があって、課税証明書とかきちんと読めない場合もあります。
ちなみに、プロンプトの改善案は、Gemini君自身に聞いてみれば、結構細かくプロンプトを修正してくれます。AIのことはAIに聞くのが一番です。
さて、これにより、タブで区切られて、情報がずらっと並ぶようになります。
まだ、Gemini君は、エクセルファイルやスプレッドシートを直接は出力するのはできないので、タブで区切られて情報を、エクセルファイルに変換する必要はあります。
*ちなみに、この工程もGemini君にPythonで書いてもらって、それをEXEファイル変換しました。これで、TXTファイルをドラッグすれば、XLSXファイルが出来るようになっています。
*Gemini君はpyhtonも1から教えてくれるので、ゲームのチュートリアルをやっている感覚で作ることが出来ます。
エクセルファイルに出来れば、後は煮るなり焼くなり自由にすればいいわけです。
在留資格オンライン申請の転記にも、紙の申請書の転記にも使えます。
ちなみに、私はそのまま在留資格オンライン申請のブラウザをPythonで動かして自動で情報を転記させています。
これに関しては拙記事を参照してください。
https://note.com/visa4you_tokyo/n/nf451e00c47f9
ただ、噂によれば、既にパソコンのブラウザを操作できるAIが出没しており、Pythonを組まなくても、自動でやってくれる時代がすぐそこです…。
4、結論、AI-OCRはマジで革命的
AI-OCRは、かなり正確に書類を読み取ってくれます。
名前とか、在留カード番号とか、パスポート番号とか、結構、人間が目を皿のようにしてチェックしても、間違うことがあります。
AIは、これらを自動的に読み取ってくれますから、かなり楽になります。
私たち人間は、最終チェックだけすればよいということになります。
実は、今でも、依頼人からもらった書類を全部つっこんで5分くらい待てば、在留資格オンライン申請が終わるというプログラムはぶっちゃけ組めます。
ただし、まだ素人が、何も考えずに構築できるようなシステムは、遠いかなと思っています。
*もちろん、確実に、その時は近づいています。
AIも実務で使えるものがゴロゴロ出て来ました。
ここいらで、まずは一番めんどくさい作業の「紙書類からの情報転記」を、AIに任せちゃうのは、アリだと思います。
お金ある方は、OpenAIやClaudeでやってもいいですし、私みたくGoogle推しな方は、Workspaceで良いと思います。
どうせ、時が来れば、AIはパソコンに標準装備されて、何の知識もなく、何の考えもなく、適当に命令すれば、自動でパソコンを動かしてくれる様になるでしょう。
それに向かって、少しずつ慣れておくのは、今取れる戦略としてはベストだと思います。
(Gmailで動くGeminiとかスーパー便利機能の話は、今度したいと思います。)