
断なし! 自炊PDF・・・『PDF element Pro』+『LiquidText Pro』、タテ書きPDFはばらつきが・・・・それでもめげず二段組・三段組もOCR
ほとんどの自炊PDFがタテ書き書籍なので、さんざん苦労してきました。
それにもめげず、断なし! 自炊PDFに『PDF element Pro』でOCR化をしました。
というのも、『LiquidText Pro』を活用するには、OCR化してある方が・・・言ってしまえば、不確かなOCR化でも・・・有効です、【うん、ほんまやで】
『LiquidText Pro』が活躍する場合・・・
『LiquidText Pro』で、断なし! 自炊PDFを資料として参照するのは数冊にまたがって参照する場合です。
断なし! 自炊PDFを参考資料として一冊の参照なら、「GoodNotes」、「Noteshelf」や「Xodo」で十分だし、iPadの二面表示(Split View)を使えば、例えば「メモ」に引用やコメントを集約できます。今までさんざん使い慣れた手法【うん、ほんまやで】
でも、参照する資料が数冊にまたがっている場合は、『LiquidText Pro』一択です。【シランケド】
『LiquidText Pro』がさらに活躍する・・・OCR(透明テキスト)付PDF
『LiquidText Pro』を活用するには、OCR化してある方が・・・言ってしまえば、不確かなOCR化でも・・・有効です、【うん、ほんまやで】
自炊PDFは、「OCR化」することが目的ではなく、「読む」ために、場合によっては参考資料として活用するために書籍をPDF化しているわけで・・・
「OCR化」に過度の時間的、肉体的負担をかけるべきではない!
また、『LiquidText Pro』の導入も、効率よく「読む」ためです。
この2点を抑えて、『PDF element Pro』での「OCR化」を自動で少々、不確かであっても行うことにしました。
タテ書き2段組、3段組は、段の空きがあればOK!
『PDF element Pro』での「OCR化」
「OCRテキスト認識」の「方法」には2種類あります。
「検索可能な画像」と「編集可能なテキスト」です。
前回の記事は主に「編集可能なテキスト」についてです。
課題だった、2段組、3段組の結果です。
『PDF element Pro』での「OCR化」
「OCRテキスト認識」の「方法」で「検索可能な画像」
見た目は、PDFで、透明テキストを選択できます。
というのは他 でもない、 この 志道 軒、 じつは文耕 と
いう男 をよく知 っておるのさ。 一時は、 兄 弟 のように
交 際 していたこともあるぐらいでの。
あれはいつであったか、…… そう、 五年 前の夏 だっ
たかな。 ここで夜 講 釈 を終 って帰 ろうとしていると、
ひとりだけどうしても引 き揚 げようとしない男 がおる。
「これ、 志 道 軒 の夜 講 釈 は終 ったぞ。 いい加減 にし
て帰 りなさ
タテ書き二段組でも、段の空きが十分あれば、透明テキストが張り付きます。
ところが・・・『LiquidText Pro』では・・・ナンジャ!原因不明!
『LiquidText Pro』でワークスペースへ持っていくと、「漢字」が抜けている・・・
いつもは、下の画像のように漢字もかなも拾ってくるのに・・・【なんでやなん】
それにもめげず、三段組の結果・・・・
にも悲 痛 な顔 が、 彼 らのいる方 へ、 情 けな
げに旋回するときだ。
ジジさン 「そうそう」 と、 思 い出 して、 顔
をしかめながら、
「斬 られて死 ぬるのが…… 」 移動 倒 れて
くるエッ? アア—— 小 夜 悩 乱 の姿 にな
って、 「新、 新三 郎 さまッ」 うめく如 く、
呼 んで、 此 方 へ来 かけたが、 ガクリ顔 をそ
むけると、 それは絶 望 を意 味 する 血 まみ
れの 争 い をきょう が日 まで、 いまのいま
迄、 いまも尚、 争 い続 けて来 た それだ
けに、 爺 のコトバの、 どぎつさよ! 足 も
とにかねて脅 ゆる大 穴 が、 スッポリあいた
その心、 頭 が、 めまいが、 クラクラする。
しかも、 気強 い! 新三郎 の、 コトバが、
虚しい笑いをふくンで聞える。
三段組も段と段の間に十分な空きがあれば、うまくいきます。
NGのケース・・・
歴史年表です。段と段の間に間隔がなく、罫線が入っています。
この形式では、『PDF element Pro』のOCRは機能しません。
ちなみに「google drive 」+「googleドキュメント」でやってみると、
段を無視して、タテ一行で認識・変換してきます。
それを整形するのには、苦労した・・・【うん、ほんまやで】
まとめ
OCRがうまくいかないと、これでもかと・・・・・
『PDF element Pro』での「ツール」→「OCRテキスト認識」の「方法」で「編集可能なテキスト」で・・・
見た目は意味不明!の画面になりますが、めげずに「テキスト」があるらしい部分を選択→コピーWordやPageにペースト→→くっくらくっくら、修正する。
例えば、書籍をテキスト化する仕事であれば、これもアリでしょう。
自炊PDFを資料として、必要に応じて読んでいき、チェックしたり抜き書きメモしたり、コメントしたりする・・・日常に・・・苦労して時間をかけて正確な「テキスト」化に意味があるのか、よく考えて・・・たいてい無意味!【うん、ほんまやで】
自炊PDFの多くは参考資料としての利用を目的としています。
そのために『LiquidText Pro』は、有効なツールです。それを
さらに活かすには、OCR(透明テキスト)付が有効で効率よく読み進められます。
何よりも効率よく読み進めるために、短時間で最低限のOCR(透明テキスト)化できる
『PDF element Pro』の「OCRテキスト認識」を利用しています。