pythonでpdfファイルから文字列を抽出する

2021年3月9日 22:55

pythonでpdfファイルから日本語を含む文字列を引っ張りだしたいと思って調べたら pdfminer.six を使えば簡単に出来ることがわかった。いろいろパラメータを指定する必要があるらしいが親切にもpdfminer.high_levelという関数が用意されているので超簡単。

準備

pip3 install pdfminer.six

特に難しいことはない。