【デモで満足すべき五流Colab】IBMのDocling、PDFテーブル認識がすごすぎやろ..

2024年11月8日 22:56

作業ディレクトリの作成と移動

まずGoogle Driveをマウントして、Colabからアクセスできるようにします

# Google Driveにマウント
from google.colab import drive
drive.mount('/content/drive')

次に、プロジェクト固有の作業ディレクトリを作成します。
ディレクトリ構造は /content/drive/MyDrive/PWC/docling となります

# 作業用ディレクトリの作成と移動
demo_name = "docling"
work = f"/content/drive/MyDrive/PWC/{demo_name}"
!mkdir -p $work
%cd $work
!ls

ライブラリのインストール

doclingは、PDFドキュメントを構造化されたデータに変換するためのPythonライブラリです
pipコマンドを使用して、Python Package Index (PyPI) からインストールします。
インストール完了後、Pythonプログラム内でdoclingモジュールが利用可能になります

!pip install docling

Doclingを使用したPDF変換デモ

シンプルな変換例

インポート:
- DocumentConverterクラスをインポートします
ソース指定:
- URLまたはローカルファイルパスでPDFを指定できます
変換処理:
- DocumentConverterのインスタンスを作成
- convert()メソッドでPDFを変換
結果出力:
- export_to_markdown()で構造化されたMarkdown形式で出力
- 見出し、テキスト、表などが適切に変換されます

注意点

URLを使用する場合はインターネット接続が必要です
大きなPDFファイルの場合は変換に時間がかかる可能性があります
変換結果の品質はPDFの構造や品質に依存します

# 必要なモジュールのインポート
from docling.document_converter import DocumentConverter

# 変換対象のPDFを指定（URLまたはローカルパス）
source = "https://arxiv.org/pdf/2408.09869"  

# コンバーターのインスタンスを作成
converter = DocumentConverter()

# PDFを変換
result = converter.convert(source)

# 結果をMarkdown形式で出力
print(result.document.export_to_markdown())  # "## Docling Technical Report[...]" が出力されます

出力結果

たしかに、よく認識している。

【デモで満足すべき五流Colab】IBMのDocling、PDFテーブル認識がすごすぎやろ..

作業ディレクトリの作成と移動

ライブラリのインストール

Doclingを使用したPDF変換デモ

シンプルな変換例

注意点

出力結果

いいなと思ったら応援しよう！