縦書き自炊PDFのOCRは、やっぱ読取革命でした・・・しかし「CLipOCR」と一長一短
目的ははっきりしています。
複数の自炊PDF(タテ書き書籍)を『LiquidText』で効率よくまとめ上げるために、ヨコ書き透明テキスト付PDFに書きかえることです。
『縦書き自炊PDFのOCR』を求めての半年にわたる旅
この時点では、
また、OCRソフトについては、以前Winで使っていた「読取革命」が良かったので、Mac版を探しましたら、旧いOSバージョンしか対応していないので諦めました。
また、「読取革命」では1ファイルごと、認識範囲を確定していた記憶があり、数ページのドキュメントなら気にもなりませんが、自炊PDFにした書籍は150から300ページになります。【やってられん】
と、「読取革命」をすっかり諦めていました。
以前、プリンターに付属していたWinの「読取革命 Lite」を使っていました。
当時はWinもよく使っていたし、「読取革命」のOCRは気に入っていました。
たしかに「認識範囲を確定がうっとしい」と記憶【うん、ほんまやで】
「日本語のタテ書きOCR」は、国産アプリから選ぶ・・・当たり前のことですが・・・まず、OCRのための読み込みが、英語を含め多くの言語では「左から右」、タテ書き日本語の場合は「右から左」。これを自動判別が必須です。
以上のように、『縦書き自炊PDFのOCR』を求めての半年にわたる旅です。
「CripOCR」・・・不満は「ルビ・ふりがな」の出現する行の問題です。
「サブスク嫌い」を乗りこえて、サブスク契約をしてみたけれど・・・・・
参考文献の分野にもよりますが、ルビ・ふりがながないと「参考」にならない文献もあります。人名・地名はもとより語句・熟語、特に専門用語にはなくてはならないものです。
原点に戻って、日本製の定番の「読取革命」をもう一度見直してみると・・・
「かんたんモード」では、入力→認識→保存の3ステップで紙文書やPDFを編集可能な電子データに変換できます。シンプルな画面で、必要最低限のボタンに絞ることで、初めての方でもスムーズな操作性を実現しました。
「かんたんモード」があります。
正確なOCRでクローンをつくるつもりはまったくなく、OCRの結果での「改行」もそのままで、「ルビ・ふりがな」の出現位置もそのままに・・・
効率よく・・ほとんど自動で、短時間で(時間がかかっても自動で)・・OCRは済まして欲しい・・・これが目的ではないので【うん、ほんまやで】
「かんたんモード」でいけそうか?
「読取革命」=「認識範囲を確定がうっとしい」の「思い込み」を解放できるかも?
と考えながらも、決断した決定的要因は、ソースネクストの割引だった!
もうひとつの決め手は、「入力」に「PDFファイル」があること。
「出力」に「TXTファイル」があること。
「読取革命」の特徴の「プリンターとの連携」や「MicroSoft Officeへのアプリ転送」、「翻訳アプリ連携」はまったく使用しないので、まさに「宝の持ち腐れ」
「かんたんモード」で「PDFファイル」を「TXTファイル」に出力するだけ・・・
これだから、ソースネクストのセールでなかったら【買わなかった、ほんまやで】
まとめ・・・結果報告
「読取革命16」では、「CripOCR」で頻出した「文字抜け」がない。
「読取革命16」では、「ルビ・ふりがな」が飛ぶ!時々認識するがほとんど認識しない。「CripOCR」では、「ルビ・ふりがな」は、文末にまとめて抽出さてるが、「読取革命16」はそれすらない。
「傾き補正」では、「CripOCR」の方が「傾き」に強い。「読取革命16」では「傾き」を補正しないと行の抜けや語彙の抜けが出てしまいます。
所要時間の比較
圧倒的に「読取革命16」。100ページを超えるPDFでもほとんど自動で行えます。
「CripOCR」の前準備の画像化、1ページづつのOCR、結果のテキストのコピペと付きっきりで操作しなければならない。数ページのPDFでは力を発揮います。
「PDF element Pro」は、「読取革命16」同様、100ページを超えるPDFでもほとんど自動で行えます。認識にかかる時間的は「PDF element Pro」が何倍もかかります。また、「PDF element Pro」では、文字間に半角空白が入りますので、それを削除する一手間(検索→置換)がかかります。
「読取革命16」で、「ルビ・ふりがな」の抜けだけが、気になります。
本文がほぼ正確(ただし。傾きに注意)な「読取革命16」に「ルビ・ふりがな」を根気よく補っても、時間的効率は一番です。