見出し画像

PyMuPDF4LLMを使ってみる

 [読了目安: 2分]

NO AI(人間が書きました✍️)

AI系ポッドキャスト(耳で学ぶAI)運営の矢野哲平(@robothink_jp)です。この記事ではPyMuPDF4LLMについて使ってみた感想を紹介します。

PyMuPDF4LLM

PDFから情報を抽出できるPythonライブラリです。
公式の説明によると、
「PyMuPDF4LLM は、LLM や RAG 環境で必要な形式で PDF コンテンツを簡単に抽出できるようにすることを目的としています。 Markdown 形式での抽出や、 LlamaIndex ドキュメント出力もサポートしています 」
とあります。生成AIで処理しやすい形でPDFの情報を抽出してくれます。

使い方

ドキュメント通りにライブラリをインストールしていきます。

pip install pymupdf4llm

次にPythonファイルを作成してコードを書きます。

import pymupdf4llm

md_text = pymupdf4llm.to_markdown("gemini-prompt-guide.pdf")
print(md_text)

試しにGeminiのプロンプトガイドを抽出してみました。

(中略)
Before putting an output from Gemini for Workspace into action, review it to ensure clarity, relevance, and accuracy. And of course the most important thing to keep in mind: Generative AI is meant to help humans  but the final output is yours.

 The example prompts in this guide are meant for illustrative purposes.

## Stay up to date

#### at workspace.google.com  and workspace.google.com/blog

###### Happy prompting!

Markdown形式で出力してくれます。

Markdownファイルを出力する

今度は抽出した情報をMarkdownファイルとして出力してみます。

import pymupdf4llm
import pathlib

md_text = pymupdf4llm.to_markdown("gemini-prompt-guide.pdf")
pathlib.Path("output.md").write_bytes(md_text.encode())

output.mdの名前でMarkdownファイルが作成されます。

OpenAIなどのAPIを使ってPDFを読み取る方法と、PyMuPDF4LLMを使う方法で厳密に比較したわけではないですが使いやすそうです。扱う書類が大量になる場合の選択肢の一つとして。ローカルで簡単に抽出できるのが便利ですね。
PyMuPDF4LLMで情報抽出👉OpenAI APIで処理すると色々な使い方ができそうです。

【note読者限定】生成AIのおすすめツールの資料を配布中

  • 生成AIツールは何を使えばいいか分からない

  • もっと業務効率化に貢献するツールを知りたい

  • ChatGPT以外のAIツールを知りたい

こういった声に応えておすすめの生成AIツールを解説する資料を制作しました。もっとAIの情報をキャッチアップしたい人はぜひご覧ください。
👉資料を受け取る

noteでも月に20本ほどAI関連の記事を投稿しています。フォローよろしくお願いします😼

いいなと思ったら応援しよう!

この記事が参加している募集