pythonでpdfファイルから文字列を抽出する
pythonでpdfファイルから日本語を含む文字列を引っ張りだしたいと思って調べたら pdfminer.six を使えば簡単に出来ることがわかった。いろいろパラメータを指定する必要があるらしいが親切にもpdfminer.high_levelという関数が用意されているので超簡単。
準備
pip3 install pdfminer.six
ソースコード
今回のエッセンス
特に難しいことはない。
pythonでpdfファイルから日本語を含む文字列を引っ張りだしたいと思って調べたら pdfminer.six を使えば簡単に出来ることがわかった。いろいろパラメータを指定する必要があるらしいが親切にもpdfminer.high_levelという関数が用意されているので超簡単。
pip3 install pdfminer.six
特に難しいことはない。