頭が痛いPDFの変換（Google Pixelを使う：その4）

2018年12月17日 14:41

書籍の執筆を行なっていると、PDFを扱う場合が多い。これをテキストに変換したいという場合がしばしばある。
例えば、私はnoteで新刊書籍の「立ち読みサービス」を行なっているが、そのためには、書籍のテキストが必要だ。
元々の原稿はもちろんテキストで持っている。しかし、校正の過程で直しが入る。このため、最終稿は出版社のPDFでしか存在しない。
ところが、これをテキストに直すのが、簡単な作業ではないのである。
Google　Pixel3は、これに対する解決策を提供してくれるだろうか？

書籍の作成過程で出版社がゲラをＰＤＦにしたものは、アドビ・アクロバットの書き出し機能では読めないことが多い。
印刷所が、印刷のためのさまざまな指定をいれていて、読むためにはそれが邪魔になるのだ。
ただし、出版社により、また印刷所により事情が違うので、一般的なことは言いにくい。そのために対処が複雑になるということもある。

テキスト化できれば、何でもできる（Google Pixelを使う：その3）で示したように、紙の書籍を自分でスキャナにかけて作ったPDFは、アドビアクロバットの書き出し機能で読める。それとこれとは、事情が違うのだ。

多くの人にとってはあまり関係のないことかもしれない。しかし、出版社の人にとってはもちろん、執筆者にとっても頭が痛い問題なのだ。
外国語の本も簡単に読める（Google Pixelを使う：その2）で「連日格闘している」と言ったことの一つは、これである。

PDFをテキストに変換できない
具体的な例で示そう。
これが元のｐｄｆだ。

これをアドビ・アクロバットででワードに書き出すと、つぎのようになる。

改行がおかしくなっているのは、なんとか我慢できる。しかし、数字とアルファベットが別の位置になってしまっている。
右ページには日本語が、左ページ人は対応する位置に数字とアルファベットがある。

自分で紙の書籍をスキャナにかけて作ったｐｄｆの場合にも、ワードの書き出し自体は読みにくい形なのだが、それをテキストに直せば、何とか使える。
しかし、いまの場合には、テキストに直しても、日本語と数字、アルファベットがバラバラのままなので、使えない。

Pixel3なら読める
この場合も、Pixel3なら読める。
いまの例についての結果を示そう（PCのスクリーンにPDFを出し、それをPixel3で撮影した）。

↓↓↓↓↓↓↓↓
（やしかを確かめることにしましょう。この際に重要な尺度となるのがGDp (国内総生産)。GDPとは、一定期間における国内で生産された経済的な価値の合計のことです(注)。 IMF(国際通貨基金)のデータによって全世界のGDPを見ると、1980年には1・なりました。2016年では8・4兆ドルです。この8年間に6.8倍に増加したことに 1兆ドルであったものが、 0年には00.4兆ドルとなり2000年には20.8兆ドルとなります。年平均増加率は、5.5%になります。このように、世界経済は順調に成長し本のGDPについては、本節で後述します。 W () 詳しい説明は、拙著『日本経済入門』(講談社現代新書、2017年)を参照してくださ注 240 金校(180731).pdf - Adobe Acrobat Pro D 表示M) ウィンドウ(W) ヘルプ(H) GDPで見た世界地図は、固定観念を打ち破る「GDPを用いて考える」というのは、経済分析を行なう際には、ごく当然のことです。しかし、われわれは、必ずしもこうした客観的データを用いません。われわれの感覚はさまざまな情報によって形づくられているため、客観的データとはかなり食い違う形世界経済) ここ
↑↑↑↑↑↑↑↑

この場合にも、改行がないとか、若干の読み取りミスがあるなどの問題がある。しかし、あまり大きな問題ではない。

最大の問題は、一枚づつ写真をとって変換していかなければならないことだ。
数ページであれば何とかなるが、本一冊となると、なかなか苦しい。

こういうわけで、どちらも完全な解にはなっていない。
ただし、本一冊をテキストに変換するというような必要は、普通はないだろう。
そうであれば、pixel3で十分だ。

AIの眼を駆使する「超」仕事法(目次）

ホーム

メタ・ナビゲーション（野口悠紀雄のnoteの総目次）

AI関連note記事　目次

Google Pixelを使う　目次

頭が痛いPDFの変換（Google Pixelを使う：その4）

いいなと思ったら応援しよう！