PDFファイルから文字だけを取り出す

2024年8月24日 19:56

PDFで公開されているドキュメントは結構あって、その中から文字列だけを取り出すショートカットアプリを作りました。

きっかけ

以前、プレゼンテーションのスクリーンを撮影し、その画像から文字を取り出したいと思って作成した、ショートカットアプリを公開しました。

それを使った人から、PDFファイルから文字を抽出したいという話があり、試しに試してみたら、ページ単位では抽出できることがわかった。
このままだと、PDFファイルのページをバラバラにして、フォルダにまとめそのフォルダを、前の記事の後半にある『フォルダ内の画像から一気にテキスト抽出』の要領で取り出す方法しか思いつかなかった。

簡単に実現できた

上記の方法は手間がかかるなぁと思っていたら、PDFファイルは複数のページがまとまったフォルダのようなものではないかと思いつき、それなら簡単にできるのでは？と試してみたら、案の定、あっさりできてしまった。
ショートカットアプリ、侮れない。

できたショートカットアプリ

『フォルダ内の画像から一気にテキスト抽出』のショートカットアプリを複製・編集してこのようにしてみたら、ちゃんと動作した。

たったこれだけのステップで、PDFファイルの全ページの文字を抽出してテキストファイルをデスクトップに出力する。（「ファイルパス」のところの名前を変えると好きな名前にして保存できる）

ショートカットアプリの潜在能力は凄いと、またまた再認識した次第。