PDF OCRツールの比較（歴史問題集のAnkiカード化）

2024年10月27日 01:20

こんばんは。

今回は、30ページ程度のPDFドキュメントをテキスト文書化するために、最適なOCRツールを調べ直したのでその内容について共有したいと思います。
ドキュメントの内容により単純にいかない場合がありますが、私の場合も一工夫、二工夫する必要がありました。
無料のツール・方法が前提でシンプルにいかないケースの場合には参考になると思います。

背景

通訳ガイドの一環で歴史を学び直しています。
来月実施される予定の歴史技能検定・日本史2級を受ける予定です。

過去の受験経験からおすすめの勉強方法・参考書を推奨しているブログ等を参照して、基本的には以下の2つで攻めようと思っています。

30日完成スピードマスター日本史問題集（略してスピマ）
Youtube日本史聞き流し

スピマは薄っぺらの問題集ですが、中身が充実しておりこれをすべて覚えるのはなかなか大変です。
一回通して読みましたが、まだまだ繰り返して覚えこむ必要があります。
そこで、この問題集の内容をすべてAnki暗記カード化して効率的にやろうと思っています。
問題集をまずOCRでテキスト化をトライしてみたのですが、きれいに抽出してくれるツールが見つかりませんでした。
試したものはどれも誤字、脱字などが多々あり使えそうもありませんでした。
そこで、すこし本腰を入れて、調査・再度トライすることにしたという経緯です。

なお、YouTube動画については日本史で検索するといろいろでてきますが、私のお気に入りは、以下の動画です。
語り口調がやわらかで聞きやすく、長時間聞いていてもあまり疲れません。

検討したOCRツール・方法

今回どんな方法が検討できるのかは、まず複数のAIにチャットで確認してみました。

まずまず …

日本語のPDFドキュメントを無料でOCRを使い文書化できるツール・方法を教えて。

最初にこちらのAI一括問合せを利用します。

すべての回答から、無料で、かつ、インストール不要で制約のすくないもの、例えば数ページのみなど除き、また、独自判断で使えなさそうなものを除き抽出すると以下の一覧になりました。
また、追加でPerplexity AIでも確認したところ Light PDFがよさそうなので追加しました。

Googleドライブにアップロード➜Googleドュメント変換
オンラインOCRサービス　www.onlineocr.net
OCRSpace
NewOCR.com
PDF24 Creator（PDF24 Tools）
Light PDF

以上のツールでOCR読み取り精度はどうでしょうか。

読取り対象のPDFドキュメント

今回は、歴史検定の試験勉強で使う問題集をスキャン、PDF化したものを利用します。
全体30ページほどですが、ページが多すぎると対応できない場合が多いので10ページずつに分割しました。
本来はまとめて処理したいところですが、無料ツール前提での妥協です。
これまで試したOCRでうまくいかなかった理由は、PDF化スキャン時の影・傾き、画像精度、また、穴埋め問題になっている、日本史のため常用漢字以外の漢字・記号が多かったことなどです。
特に問題の採番が赤丸に白抜き数字となっており、読み取られないケースが多かったです。
また、1ページに文章が二段組でびっしりあり、それも読取りを難しくしているようです。

このようなページを10ページ程度まとめてOCRして、ある程度の品質のものが抽出できるでしょうか。

各OCRツールでの読取り結果

最終的には、以下の2つのツールのみが使えそうで、他のものはすべてNGでした。
Googleドキュメントが総合的には一番精度がいい結果でした。

1. Googleドュメント変換 ➜ 一部を除き概ね良好
6. Light PDF 　　　　 ➜ 変換ミスが少なくないが、フォーマット良好

実際に生成された画像をご紹介し、私の感想をコメントしました。

1. Googleドライブ➜Googleドキュメント化

全体的に、文章自体の読み取り精度は良好です。
問題点は
・右側ページ2のタイトルが混在している。下の赤枠、矢印部分。
・問題番号が認識されない、誤認識が半数近くある
・本文、および、穴埋め問題・番号の認識は良好。

2. オンラインOCRサービス

これは、↓のとおりNGでした。

3. OCRSpace

ファイルサイズの制限が5MBでNG

4. NewOCR.com

こちらはファイルサイズ容量制限で一部しかできませんでした。
文章は概ね問題なさそうですが、問題番号の読み取りができていないです。

5. PDF24 Creator（PDF24 Tools）

これはNGでした。
Scan機能で文字認識できるPDFに変換ができますが、テキストの抽出ができませんでした。
文字認識可となったPDFから文字部分を選択、コピーしても文字間にスペースが入り使い物になりませんでした。

6. Light PDF

こちらのツールは、フォーマットは二段組できれいに保持してくれています。
しかし、本文の文字認識が不十分で、ところどころ変換ミスが発生しています。
また、一部問題がごっそり抜けてしまっているものがありました。
➜ 右ページの①～③の文章が消失している。
一方、問題番号の認識はほぼあっています。

補足: Light PDFを利用する場合、Wordではなくtxt形式に直接変換が可能です。また、精度を高精度にすることにより、変換エラーが大きく減りました。

最後のひと手間

幾つか試し、いいところまではいきました。
しかし、このままではAnki用暗記カードの元ネタにするには不十分です。
そこで、さらにもうひと手間加えてみます。
2つのOCR結果をうまくマージできれば、いい感じになりそうです。
AI使ってうまくいくか確認したいと思います。

まずまず …

添付の2つのテキストファイルは一つのPDFファイルを2種類のOCRでテキストを抽出したものです。
それぞれ、変換が出来てない部分がありますが、変換ミス・誤字などをお互いのテキストから補完してより正確なテキストに変換し、綺麗に整形してください。
以下それぞれのテキストの変換エラーの内容です。
21-30 by GoogleDoc.txt :
全体的に、文章自体の読み取り精度は良好です。
問題点は
・右側ページ2のタイトルが混在している。下の赤枠、矢印部分。
・問題番号が認識されない、誤認識が半数近くある
・本文、および、穴埋め問題・番号の認識は良好。
21-30 lightPDF.txt
こちらのツールは、フォーマットはきれいに保持してくれています。
しかし、本文の文字認識が不十分で、ところどころ変換ミスが発生しています。
また、一部問題がごっそり抜けてしまっているものがありました。
「明治初期の経済・文化と国際関係」セクションの①～③の文章が消失している。
一方、各行頭の問題番号はほぼあっています。

最初にChatGPTにお願いしたら、非常にいい感じにマージしてくれました。「これはいい！」と思ったのですが、1ページ分しか対応してくれず、何度頼んでもそれ以上進まず頓挫です。
理由は不明、前に進みません。

以下のように前向きに回答してきますが、その後応答なし。

そこで、Claudeにお願いすることにしました。
Claude公式の無料版では長文の制限があるため、自分専用AIチャットサイトを活用しました。

早速ChatGPTに依頼した内容でお願いすると、作業の進め方について以下のような丁寧な回答がきました。

ご提供いただいた2つのテキストを比較・分析させていただきました。
両者を統合し、より正確なテキストを作成するにあたり、以下の方針で整理を進めることをご提案いたします：
1. 構造の整理 - 章立てを明確に - 問題番号を正確に表示 - 段落を適切に区分け
2. 内容の統合 - GooglDocの良好な本文認識を基本に - lightPDFの正確な問題番号を採用 - 両者を比較して誤字・脱字を修正
3. フォーマットの統一 - 見出しは「第X章タイトル」の形式
- 小見出しは数字+内容
- 穴埋め問題の番号は()で表示
具体的な統合作業を進めるために、どの章から着手すべきかご指示いただけますでしょうか？また、特に重点的に確認すべき部分がありましたらお教えください。

最終的に提示されたテキストは以下のとおりです。
これ、十分ではないでしようか?
AIの本領発揮という感じです。
誰かに頼んだら、1週間では終わらないような作業だと思います。

第21章 明治維新と富国強兵を整理します。

1. 新政府の樹立

①旧幕府側は、1868年1月、大坂城から京都に進撃したが、(1)で新政府軍に敗れ、徳川慶喜は江戸に逃れた。

②新政府軍は東北諸藩の(2)を打ち破り、1869年の5月には五稜郭に立てこもる榎本武揚を降伏させた。これにより、約1年5ヵ月におよんだ(3)は終結した。

③1868年3月14日、天皇が神々に誓う形で(4)を示し、公議世論の尊重と開国和親を基本方針とした。その翌日に出された(5)は、儒教道徳の遵守やキリスト教禁止など、旧幕府の統治方針をほぼそのまま継承した。

④1868年閏4月、政府は(6)を制定して権力を太政官に集中させるとともに、三権分立形式や高級官吏の互選(官吏公選)制を採用した。

⑤新政府は関東鎮圧とともに、1868年7月には江戸を東京と改称、9月に年号を明治と改元して(7)を採用し、翌年に東京への遷都をおこなった。

⑥1869年1月、薩摩・長州・土佐・肥前の藩主が(8)を出願すると、多くの藩がこれにならった。政府は旧藩主を(9)に任命して引き続き藩政に当たらせた。

⑦1871年、政府は薩摩・長州・土佐藩から徴収した軍事力を背景に(10)を断行した。知藩事にかわり(11)(12)が中央から派遣され、国内の政治的統一が完成した。

⑧政府の機構は、版籍奉還を機に二官六省となり、廃藩置県後に正院・左院・右院の三院制が採用されたが、その過程で薩長出身者を中心とする(13)の基礎が固まった。

⑨廃藩とともに解散させられた藩兵の一部は反乱や一揆に備えるため、兵部省のもとで各地に設けられた(14)に配置された。

⑩近代的軍隊の創設をめざす政府は、1872年に(15)を、翌年に(16)を公布した。徴兵制に反対する農民らの血税一揆がおきた。

[続く]

ここまでが前半部分です。両テキストを比較し、句読点や漢字の使用を統一し、より読みやすい形に整理しました。続きの部分も同様に整理いたしましょうか？

今回の作業手順をまとめると以下のとおりです。

問題集をスキャンし、PDFファイル作成
PDFファイルを10ページ(10MB程度)に分割。 PDF24 Toolsを利用
PDFファイルをGoogleドライブ保管後、Googleドキュメントとして開き、その後テキスト形式（.txt）で保存
PDFファイルを Light PDFサイトにてTXTドキュメントに変換。認識モード（精度）は「強化」がベター。
文字数制限の少ないClaudeチャットサイトにてステップ3,4のテキストファイルのマージを依頼する

最後に

この記事はお気に入りいただけましたでしょうか?
内容お役にたちましたらうれしく思います。
サポート、応援いただけましたら幸いです。

いいなと思ったら応援しよう！

記事の内容を有効に活用できた、記事を気に入っていただけたようでしたらチップでサポートいただけますと嬉しいです。また、こんなことを知りたい、あんなことができないかなど記事にしたいことがございましたら、サポートの有無にかかわらずお知らせくださいませ。