pythonでpdfファイルから文字列を抽出する

pythonでpdfファイルから日本語を含む文字列を引っ張りだしたいと思って調べたら pdfminer.six を使えば簡単に出来ることがわかった。いろいろパラメータを指定する必要があるらしいが親切にもpdfminer.high_levelという関数が用意されているので超簡単。

準備

pip3 install pdfminer.six

ソースコード


今回のエッセンス

特に難しいことはない。

いいなと思ったら応援しよう!