Chat GPTでDX。OCR機能を試す
Chat GPTでOCRを試してみました。OCRとは、Optical Character Reader/recognation)で光学的文字認識/読取という意味です。
手書き文字やPDFを読んでもらえたら事務処理が楽な局面もあります。
もうひとつ、Chat GPTのライバルGoogleが提唱するGemiのOCR機能が強化されたという噂を聞いたので、それぞれ性能比較を行ってみました。
サンプルは以下の通りです
左が手書き文字。右がPDF化した活字です。よく、取引企業からPDFが送られてきて、その内容を分析するために打ち直していることがあります。
ちなみにChat GPTで読ませた結果です。
活字PDFなら楽勝で内容まで理解できますし、
CSVファイルも作ってくれます。
しかし、手書き文字が決定的にだめ。そこでGeminiを使ってみます。比較表がこちら。
カレンダーもよみました。Geminiは読んでくれませんでした。
結論として両社は活字を読み取れます。ただし、Geminiは読めるファイルがJPEGに限定されます。Chat GPTはPDF,Jpegなど多様なファイルが読み込めます。
手書き文字は程度の差こそあれ、正確ではありません。Geminiは楷書文字なら読み取りますが、Chat GPTは誤読します。