断なし! 自炊PDF・・・『PDF element Pro』＋『LiquidText Pro』、タテ書きPDFはばらつきが・・・・それでもめげず二段組・三段組もOCR

2022年3月6日 15:12

ほとんどの自炊PDFがタテ書き書籍なので、さんざん苦労してきました。

それにもめげず、断なし! 自炊PDFに『PDF element Pro』でOCR化をしました。
というのも、『LiquidText Pro』を活用するには、OCR化してある方が・・・言ってしまえば、不確かなOCR化でも・・・有効です、【うん、ほんまやで】

『LiquidText Pro』が活躍する場合・・・

『LiquidText Pro』で、断なし! 自炊PDFを資料として参照するのは数冊にまたがって参照する場合です。
断なし! 自炊PDFを参考資料として一冊の参照なら、「GoodNotes」、「Noteshelf」や「Xodo」で十分だし、iPadの二面表示（Split View）を使えば、例えば「メモ」に引用やコメントを集約できます。今までさんざん使い慣れた手法【うん、ほんまやで】
でも、参照する資料が数冊にまたがっている場合は、『LiquidText Pro』一択です。【シランケド】

『LiquidText Pro』がさらに活躍する・・・OCR（透明テキスト）付PDF

『LiquidText Pro』を活用するには、OCR化してある方が・・・言ってしまえば、不確かなOCR化でも・・・有効です、【うん、ほんまやで】

自炊PDFは、「OCR化」することが目的ではなく、「読む」ために、場合によっては参考資料として活用するために書籍をPDF化しているわけで・・・

「OCR化」に過度の時間的、肉体的負担をかけるべきではない！

また、『LiquidText Pro』の導入も、効率よく「読む」ためです。

この２点を抑えて、『PDF element Pro』での「OCR化」を自動で少々、不確かであっても行うことにしました。

タテ書き2段組、3段組は、段の空きがあればOK！

『PDF element Pro』での「OCR化」
「OCRテキスト認識」の「方法」には２種類あります。
「検索可能な画像」と「編集可能なテキスト」です。
前回の記事は主に「編集可能なテキスト」についてです。

課題だった、2段組、3段組の結果です。
『PDF element Pro』での「OCR化」
「OCRテキスト認識」の「方法」で「検索可能な画像」

見た目は、PDFで、透明テキストを選択できます。

というのは他でもない、この志道軒、じつは文耕と
いう男をよく知っておるのさ。一時は、兄弟のように
交際していたこともあるぐらいでの。
あれはいつであったか、…… そう、五年前の夏だっ
たかな。ここで夜講釈を終って帰ろうとしていると、
ひとりだけどうしても引き揚げようとしない男がおる。
「これ、志道軒の夜講釈は終ったぞ。いい加減にし
て帰りなさ

タテ書き二段組でも、段の空きが十分あれば、透明テキストが張り付きます。

ところが・・・『LiquidText Pro』では・・・ナンジャ！原因不明！

『LiquidText Pro』でワークスペースへ持っていくと、「漢字」が抜けている・・・

いつもは、下の画像のように漢字もかなも拾ってくるのに・・・【なんでやなん】

それにもめげず、三段組の結果・・・・

にも悲痛な顔が、彼らのいる方へ、情けな
げに旋回するときだ。
ジジさン「そうそう」と、思い出して、顔
をしかめながら、
「斬られて死ぬるのが…… 」移動倒れて
くるエッ？アア—— 小夜悩乱の姿にな
って、「新、新三郎さまッ」うめく如く、
呼んで、此方へ来かけたが、ガクリ顔をそ
むけると、それは絶望を意味する血まみ
れの争いをきょうが日まで、いまのいま
迄、いまも尚、争い続けて来たそれだ
けに、爺のコトバの、どぎつさよ！足も
とにかねて脅ゆる大穴が、スッポリあいた
その心、頭が、めまいが、クラクラする。
しかも、気強い！新三郎の、コトバが、
虚しい笑いをふくンで聞える。

三段組も段と段の間に十分な空きがあれば、うまくいきます。

NGのケース・・・

歴史年表です。段と段の間に間隔がなく、罫線が入っています。
この形式では、『PDF element Pro』のOCRは機能しません。
ちなみに「google drive 」＋「googleドキュメント」でやってみると、
段を無視して、タテ一行で認識・変換してきます。
それを整形するのには、苦労した・・・【うん、ほんまやで】

まとめ

OCRがうまくいかないと、これでもかと・・・・・
『PDF element Pro』での「ツール」→「OCRテキスト認識」の「方法」で「編集可能なテキスト」で・・・
見た目は意味不明！の画面になりますが、めげずに「テキスト」があるらしい部分を選択→コピーWordやPageにペースト→→くっくらくっくら、修正する。

例えば、書籍をテキスト化する仕事であれば、これもアリでしょう。

自炊PDFを資料として、必要に応じて読んでいき、チェックしたり抜き書きメモしたり、コメントしたりする・・・日常に・・・苦労して時間をかけて正確な「テキスト」化に意味があるのか、よく考えて・・・たいてい無意味！【うん、ほんまやで】

自炊PDFの多くは参考資料としての利用を目的としています。
そのために『LiquidText Pro』は、有効なツールです。それを
さらに活かすには、OCR（透明テキスト）付が有効で効率よく読み進められます。

何よりも効率よく読み進めるために、短時間で最低限のOCR（透明テキスト）化できる
『PDF element Pro』の「OCRテキスト認識」を利用しています。