
Photo by
nirasaki
PDFファイルから文字だけを取り出す
PDFで公開されているドキュメントは結構あって、その中から文字列だけを取り出すショートカットアプリを作りました。
きっかけ
以前、プレゼンテーションのスクリーンを撮影し、その画像から文字を取り出したいと思って作成した、ショートカットアプリを公開しました。
それを使った人から、PDFファイルから文字を抽出したいという話があり、試しに試してみたら、ページ単位では抽出できることがわかった。
このままだと、PDFファイルのページをバラバラにして、フォルダにまとめそのフォルダを、前の記事の後半にある『フォルダ内の画像から一気にテキスト抽出』の要領で取り出す方法しか思いつかなかった。
簡単に実現できた
上記の方法は手間がかかるなぁと思っていたら、PDFファイルは複数のページがまとまったフォルダのようなものではないかと思いつき、それなら簡単にできるのでは?と試してみたら、案の定、あっさりできてしまった。
ショートカットアプリ、侮れない。
できたショートカットアプリ
『フォルダ内の画像から一気にテキスト抽出』のショートカットアプリを複製・編集してこのようにしてみたら、ちゃんと動作した。

たったこれだけのステップで、PDFファイルの全ページの文字を抽出してテキストファイルをデスクトップに出力する。(「ファイルパス」のところの名前を変えると好きな名前にして保存できる)
ショートカットアプリの潜在能力は凄いと、またまた再認識した次第。