見出し画像

【Python】PDFのテキストを取得する方法

※過去の記事を再投稿しています


概要

PDFから一括でテキストを取得したいことがあると思います

Pythonのライブラリを使用することで簡単に取得できます

「pdfminer.six」を利用します

sample.pdf


Pythonソースコード

import pdfminer
from pdfminer.high_level import extract_text

text = extract_text('./sample.pdf')
print(text)


解説

import pdfminer

 インストールが必要です(pip install pdfminer.six)

from pdfminer.high_level import extract_text

 pdfminer.high_levelをインポートします

text = extract_text('./sample.pdf')

 PDFのパスを指定して読み込みます

print(text)

 PDFから取得したテキストを表示します

サンプルPDF

Pythonのpdfminer.sixを利用して、PDFからテキストを抽出します。

 出力結果になります


所感

 PDFのテキストを取得するだけでなく、PDFの画像取得や操作を行うことができます


いいなと思ったら応援しよう!