見出し画像

PDFファイルから文字だけを取り出す

PDFで公開されているドキュメントは結構あって、その中から文字列だけを取り出すショートカットアプリを作りました。

きっかけ

以前、プレゼンテーションのスクリーンを撮影し、その画像から文字を取り出したいと思って作成した、ショートカットアプリを公開しました。

それを使った人から、PDFファイルから文字を抽出したいという話があり、試しに試してみたら、ページ単位では抽出できることがわかった。
このままだと、PDFファイルのページをバラバラにして、フォルダにまとめそのフォルダを、前の記事の後半にある『フォルダ内の画像から一気にテキスト抽出』の要領で取り出す方法しか思いつかなかった。

簡単に実現できた

上記の方法は手間がかかるなぁと思っていたら、PDFファイルは複数のページがまとまったフォルダのようなものではないかと思いつき、それなら簡単にできるのでは?と試してみたら、案の定、あっさりできてしまった。
ショートカットアプリ、侮れない。

できたショートカットアプリ

『フォルダ内の画像から一気にテキスト抽出』のショートカットアプリを複製・編集してこのようにしてみたら、ちゃんと動作した。

たったこれだけのステップでできる

たったこれだけのステップで、PDFファイルの全ページの文字を抽出してテキストファイルをデスクトップに出力する。(「ファイルパス」のところの名前を変えると好きな名前にして保存できる)

ショートカットアプリの潜在能力は凄いと、またまた再認識した次第。

いいなと思ったら応援しよう!