日本薬局方のPDFファイルをpythonでtext保存する
PDFファイルをtextエディタに変換して、保存する方法です。
医薬品でQCを担当する場合、試験法のSOPを作る時、日本薬局方の文書を引用することが多いです。
そんな日本薬局方をtext化する方法です。
①厚生労働省のホームページから、日本薬局方のPDFをダウンロードします。
②ubuntuのターミナルで以下のコマンドを入力し、pdfminer.sixをダウンロードします。
③pythonの環境で以下のコマンドを書き、python3で実行します。筆者はVScodeで行いました。
from pdfminer.high_level import extract_text
text = extract_text('000788359.pdf')
f = open('myfile.txt', 'x')
f.writelines(text)
f.close()
④以下のようにtextファイルが作成され、中身も保管されました。