
Python始めました。PDFの表を一発で取得
PDFの表を取得する前準備
https://www.java.com/en/download/manual.jsp からJavaをダウンロードでしてインストールしておく。


さらに、javaがある場所をWindowsのシステムの環境変数にpathを通しておくこと
PDFの表を取り込むには、tabula というモジュールを使う
今回は、最大電力及び最大日電力量の推移表を取得する

コード
import tabula
pdf_path = 'https://www.fepc.or.jp/library/data/infobase/pdf/2021_a.pdf'
dfs = tabula.read_pdf(pdf_path, stream = True , pages = '4')
取得した表をdfs[0]を実行して確認。

後は、表を分割したり、列、行を調整してゆく。
おわり
いいなと思ったら応援しよう!
