ICDAR'24参加速報〜LLMでドキュメント解析は解決されるのか？〜

2024年9月16日 10:58

ICDAR（International Conference on Document Analysis and Recognition）に参加しました。ドキュメント解析領域にもLLMのインパクトは及んでおり、この領域に研究とビジネスの両面で関わってきた立場からすると「大きな変化が起きている」と驚嘆を隠せません。

速報と呼ぶには期間が空きましたが、そういった話を記録しておきます。

LLMがあればOCRやLayout Analysisは不要になるのか？

GPT-4oなどのLLMにレシートやインボイスといったドキュメント画像を入力すると関連する質疑応答ができる、これはインパクトがあり多くの人が驚いたでしょう。となるとやはり「OCR or LLM ??」という問いが生まれます。学会では右でも左でもこの問いが議論されていました。（なお、正確にはLLMではなくVLLMと書くべきかもしれませんが、ジャンルの総称として本記事ではLLMに表記を統一します。）

It seems that there is an increasing amount of research attempting to address the question of whether OCR and Document Understanding models need to be developed in-house if LLMs are available. #ICDAR2024
— 岡本大和 / Yamato.OKAMOTO / RoadRoller (@RoadRoller_DESU) September 3, 2024

"Are Layout Analysis and OCR Still Useful for Document Information Extraction Using Foundation Models?"なんてタイトルの発表もあったくらいです

厳密には「OCR or LLM ??」という問いはナンセンス

期間中のディスカションで飛び交った見解をシェアする前に、正しく認識を合わせさせてください。おそらくドキュメント解析をするLLMは内部でOCRを利用しています。例えば、OCR APIを呼び出して画像中に含まれるテキストを獲得して、そのテキストを加えたpromptをLLMに入力するといった具合です。よって、「OCR or LLM ??」という問いかけは少し奇妙といえます、LLMもOCRを必要としているのですから。

ここでは「近年のLLMによってドキュメント解析領域の研究課題は解決されるのか、または従来のドキュメント解析のアプローチに欠かせないDetectorやRecognizeやParserやLayout Analysisといった要素技術を今後も研究するべきか？」くらいのニュアンスで捉えるのが適切です。先に結論だけ書いておくと、今後も必要だという主張の方が多かったです。

従来アプローチはドキュメント画像からFACTを抽出する

印象に残ったのは「従来のDetectorやRecognizerを用いたアプローチはドキュメント画像からFACTを抽出する」という主張でした。これらが画像中から文字領域を検出して、文字列を認識して、タグ（ontology）を付与するのに対し、生成AIと呼ばれるLLMでは文字通り生成アプローチを採用するので仕組みが根本的に異なります。

ここでも、一般的に生成AIで課題視されているハルシネーションの発生が報告されており、ドキュメントに書いてもいないことを解析結果として回答する点が課題視されていました。

もう少し深掘りすると、誤り方のパターンや傾向がそれぞれ異なり、ユースケースを踏まえると生成アプローチの誤りの方が深刻だということでしょう。例えば、「0」と書いてあるのに「o（ｵｰ）」と出力したら、誤りは誤りですけど、なんとなく気持ちがわからなくもないですよね。でも、画像には「1000」と書いてあるのに漢字で「千」と出力したり、「円」を「＄」と出力したりすると、なんとなくドキュメントに書いてある内容（FACT）を捉えているのではなく、勝手に情報を追加しているのではないかと心配になります。ドキュメント解析のユースケースを踏まえると無視できない大きな課題だと言えます。

説明性を持たせる必要性が主張された

Keynoteではドキュメント解析結果に説明性を持たせる重要性も語られました。例えば、解析結果を出力すると同時に「だってココに書いてあるじゃん」といった具合に画像上でエビデンスとなる箇所をハイライトするような機能が求められます。

あったようでなかったLLMに未搭載の機能かもしれません。でも、仮にLLMが内部的にOCRを利用しているならばテキスト＋座標は獲得済みです、ならば容易に実現可能だろうと思ってしまいます。しかし、生成アプローチを採用した場合にはOCR実行時点でのテキスト＋座標を最終的な解析結果と対応づけるのが意外と難しいです。

従来アプローチはOCRで獲得したテキスト＋座標のペアに対してタグを付与します。例えば「1000円」というテキストに「price」のタグを付与するといった具合です。しかし、生成アプローチはドカンと一気に「price=1000円」と出力するため、その「1000円」がどこのどの文字列なのか紐づいていない状態なのです。

ちょうど私も生成アプローチｘ説明性の研究をしていました

偶然ながら、私も生成アプローチの良さを活かしつつ、解析結果と同時にエビデンスをハイライトできるアーキテクチャを研究していました。手前味噌ですが、課題設定は正しい方向に進んでいたんだなと確信できた瞬間です。ここでは解説しませんが興味があれば論文をご覧ください。

前職NAVERで取り組んだドキュメント解析の研究発表 at #ICDAR2024

ラボ運営やプロダクトや事業開発も楽しいけど、ひたすら研究にガッツリのめり込むのも幸福な時間でした。いつも頼りになった共著者に感謝申し上げます。 pic.twitter.com/Exhq7dGrPB
— 岡本大和 / Yamato.OKAMOTO / RoadRoller (@RoadRoller_DESU) September 6, 2024

おまけ

ギリシャのレコ屋、ちょう楽しかった・・・・！！！！