見出し画像

【デモで満足すべき五流Colab】IBMのDocling、PDFテーブル認識がすごすぎやろ..

作業ディレクトリの作成と移動

まずGoogle Driveをマウントして、Colabからアクセスできるようにします

# Google Driveにマウント
from google.colab import drive
drive.mount('/content/drive')

次に、プロジェクト固有の作業ディレクトリを作成します。
ディレクトリ構造は /content/drive/MyDrive/PWC/docling となります

# 作業用ディレクトリの作成と移動
demo_name = "docling"
work = f"/content/drive/MyDrive/PWC/{demo_name}"
!mkdir -p $work
%cd $work
!ls

ライブラリのインストール

  • doclingは、PDFドキュメントを構造化されたデータに変換するためのPythonライブラリです

  • pipコマンドを使用して、Python Package Index (PyPI) からインストールします。

  • インストール完了後、Pythonプログラム内でdoclingモジュールが利用可能になります

!pip install docling

Doclingを使用したPDF変換デモ

シンプルな変換例

  1. インポート:

    • DocumentConverterクラスをインポートします

  2. ソース指定:

    • URLまたはローカルファイルパスでPDFを指定できます

  3. 変換処理:

    • DocumentConverterのインスタンスを作成

    • convert()メソッドでPDFを変換

  4. 結果出力:

    • export_to_markdown()で構造化されたMarkdown形式で出力

    • 見出し、テキスト、表などが適切に変換されます

注意点

  • URLを使用する場合はインターネット接続が必要です

  • 大きなPDFファイルの場合は変換に時間がかかる可能性があります

  • 変換結果の品質はPDFの構造や品質に依存します

# 必要なモジュールのインポート
from docling.document_converter import DocumentConverter

# 変換対象のPDFを指定(URLまたはローカルパス)
source = "https://arxiv.org/pdf/2408.09869"  

# コンバーターのインスタンスを作成
converter = DocumentConverter()

# PDFを変換
result = converter.convert(source)

# 結果をMarkdown形式で出力
print(result.document.export_to_markdown())  # "## Docling Technical Report[...]" が出力されます

出力結果

たしかに、よく認識している。

元PDF
Markdownに変換



いいなと思ったら応援しよう!