見出し画像

Python始めました。PDFの表を一発で取得

PDFの表を取得する前準備

 https://www.java.com/en/download/manual.jsp からJavaをダウンロードでしてインストールしておく。

!java -versionで Javaがインストールされているかを確認。

 さらに、javaがある場所をWindowsのシステムの環境変数にpathを通しておくこと

PDFの表を取り込むには、tabula というモジュールを使う

 今回は、最大電力及び最大日電力量の推移表を取得する

(PDFの4ページ目)

コード

import tabula

pdf_path = 'https://www.fepc.or.jp/library/data/infobase/pdf/2021_a.pdf'
dfs = tabula.read_pdf(pdf_path, stream = True , pages = '4')

取得した表をdfs[0]を実行して確認。

後は、表を分割したり、列、行を調整してゆく。

おわり



いいなと思ったら応援しよう!

こうじ
サポートを頂けると、沢山記事が書けると思います。