![見出し画像](https://assets.st-note.com/production/uploads/images/158219768/rectangle_large_type_2_fceeab352e2e1e25473f1b56c0f15222.png?width=1200)
受取請求書の自動登録化 その2 - 「GPT-4oの画像解析をPDFに対応させる」
先日こんなポストをしました。
GPT-4oによる受取請求書の画像分析が日に日に賢くなってきている気がする。GoogleのDrive APIとの合せ技で、軽減税率を含む複数明細の取引作成の修正箇所がどんどん減ってきた。 税込・税抜のフォーマットが入り乱れるなか、税抜表示の請求書を苦手としてたけど、最近はきっちり計算してくる。
— freeelover (@iamfreeelover) September 30, 2024
freeeラボでもずっと使っているAIとOCRを駆使した取引登録ですが、AI側の進化の賜物か、ついに、軽減税率を含む複数明細の取引の認識精度が、かなり上がってきました。
毎月月末になるとびっくりしています笑
ということで、以下の実装の続きとして、今回は『GPT-4oの画像解析をPDFに対応させる』を紹介します。
GPT-4oによる画像解析
GPT-4oによるレシートや請求書の解析はさんざんとやってきましたが、冒頭にも述べたように、最近精度がアップしている気がしています。
過去、一番きっちり説明した記事は以下です。
この記事を書いた時点からの重要なアップデートは、画像解析させた応答をJSONに制限するオプションがGOT-4oの画像解析でも機能するという点です。
記事執筆時点では、画像解析の応答をいちいち、安価なモデルにわたしつつJSONモードでの出力に制限していましたが、これが不要になりました(のか、元々JSONモードの指定ができたのか不明)。
PDFファイルもGPT-4oに画像解析させる迂回策
今回の目玉アップデートは、GPT-4o(API)のPDF対応です。
これまで証憑がPDFファイルだった場合は、GPT-4oに画像解析をさせることができませんでした。これをあるアイデアで迂回します。
ということで、スクリプトの実装に移ります。
事前準備
このスクリプトには、freee APIを利用します。以下のマガジンで解説している事前準備が必要です。
注意と免責事項
スクリプトはテスト環境で動作テスト済ですが、ユーザー個々の環境で動作しない場合があります。
またGoogle Apps Script(以降GAS)はじめ、各種APIやサービスの仕様変更によって動作しなくなる場合があります。
一部のスクリプトでOpenAIのChat API(Chat GPTに相当)を利用しています。そのため、出力結果が必ずしも期待している内容にならない場合があります。
以上を踏まえ、本記事はコードの共有のみを目的としており、動作保証やサポートは必ずしもお約束しません。
賞味期限(管理人によるバグ修正や仕様変更に伴うアップデート対応期限)は本記事公開後3ヶ月とします。ただし、利用しているAPI等の大幅アップデート(破壊的変更)があった場合はこの限りではありません。
また、このスクリプトの使用から生じるいかなる結果に対しても責任を負いかねますので、ご自身のテスト環境で十分にテストを重ねた上で、使用者の自己責任にてのみご使用ください。
アップデートされたOpenAIChatクラスを追加する
まずGASのプロジェクトにOpenAIChatクラスを追加します。クラスとは何かについては以下の記事を参考にしてください。
freeeラボでは、クラスを「コードの再利用性が向上し、同じコードを繰り返し書く必要がなくなるもの」と簡易に定義しています。
ということで、まずは以下のOpenAIChatクラスをプロジェクトに追加し…
APIキーを取得しプロパティストアに格納
testOpenAIChatAPI()関数を実行してテスト
してみてください。
この記事が気に入ったらチップで応援してみませんか?