縦書き自炊PDFのOCRは、やっぱ読取革命でした・・・しかし「CLipOCR」と一長一短

2022年7月3日 11:56

目的ははっきりしています。
複数の自炊PDF（タテ書き書籍）を『LiquidText』で効率よくまとめ上げるために、ヨコ書き透明テキスト付PDFに書きかえることです。

『縦書き自炊PDFのOCR』を求めての半年にわたる旅

この時点では、

また、OCRソフトについては、以前Winで使っていた「読取革命」が良かったので、Mac版を探しましたら、旧いOSバージョンしか対応していないので諦めました。
また、「読取革命」では１ファイルごと、認識範囲を確定していた記憶があり、数ページのドキュメントなら気にもなりませんが、自炊PDFにした書籍は150から300ページになります。【やってられん】

と、「読取革命」をすっかり諦めていました。
以前、プリンターに付属していたWinの「読取革命 Lite」を使っていました。
当時はWinもよく使っていたし、「読取革命」のOCRは気に入っていました。
たしかに「認識範囲を確定がうっとしい」と記憶【うん、ほんまやで】

「日本語のタテ書きOCR」は、国産アプリから選ぶ・・・当たり前のことですが・・・まず、OCRのための読み込みが、英語を含め多くの言語では「左から右」、タテ書き日本語の場合は「右から左」。これを自動判別が必須です。

以上のように、『縦書き自炊PDFのOCR』を求めての半年にわたる旅です。

「CripOCR」・・・不満は「ルビ・ふりがな」の出現する行の問題です。

「サブスク嫌い」を乗りこえて、サブスク契約をしてみたけれど・・・・・

参考文献の分野にもよりますが、ルビ・ふりがながないと「参考」にならない文献もあります。人名・地名はもとより語句・熟語、特に専門用語にはなくてはならないものです。

原点に戻って、日本製の定番の「読取革命」をもう一度見直してみると・・・

「かんたんモード」では、入力→認識→保存の3ステップで紙文書やPDFを編集可能な電子データに変換できます。シンプルな画面で、必要最低限のボタンに絞ることで、初めての方でもスムーズな操作性を実現しました。

「かんたんモード」があります。
正確なOCRでクローンをつくるつもりはまったくなく、OCRの結果での「改行」もそのままで、「ルビ・ふりがな」の出現位置もそのままに・・・
効率よく・・ほとんど自動で、短時間で（時間がかかっても自動で）・・OCRは済まして欲しい・・・これが目的ではないので【うん、ほんまやで】

「かんたんモード」でいけそうか？
「読取革命」＝「認識範囲を確定がうっとしい」の「思い込み」を解放できるかも？
と考えながらも、決断した決定的要因は、ソースネクストの割引だった！

もうひとつの決め手は、「入力」に「PDFファイル」があること。
「出力」に「TXTファイル」があること。

「読取革命」の特徴の「プリンターとの連携」や「MicroSoft Officeへのアプリ転送」、「翻訳アプリ連携」はまったく使用しないので、まさに「宝の持ち腐れ」

「かんたんモード」で「PDFファイル」を「TXTファイル」に出力するだけ・・・
これだから、ソースネクストのセールでなかったら【買わなかった、ほんまやで】

まとめ・・・結果報告

「読取革命16」では、「CripOCR」で頻出した「文字抜け」がない。
「読取革命16」では、「ルビ・ふりがな」が飛ぶ！時々認識するがほとんど認識しない。「CripOCR」では、「ルビ・ふりがな」は、文末にまとめて抽出さてるが、「読取革命16」はそれすらない。
「傾き補正」では、「CripOCR」の方が「傾き」に強い。「読取革命16」では「傾き」を補正しないと行の抜けや語彙の抜けが出てしまいます。

所要時間の比較
圧倒的に「読取革命16」。100ページを超えるPDFでもほとんど自動で行えます。
「CripOCR」の前準備の画像化、１ページづつのOCR、結果のテキストのコピペと付きっきりで操作しなければならない。数ページのPDFでは力を発揮います。

「PDF element Pro」は、「読取革命16」同様、100ページを超えるPDFでもほとんど自動で行えます。認識にかかる時間的は「PDF element Pro」が何倍もかかります。また、「PDF element Pro」では、文字間に半角空白が入りますので、それを削除する一手間（検索→置換）がかかります。

「読取革命16」で、「ルビ・ふりがな」の抜けだけが、気になります。

本文がほぼ正確（ただし。傾きに注意）な「読取革命16」に「ルビ・ふりがな」を根気よく補っても、時間的効率は一番です。