
【デモで満足すべき五流Colab】IBMのDocling、PDFテーブル認識がすごすぎやろ..
作業ディレクトリの作成と移動
まずGoogle Driveをマウントして、Colabからアクセスできるようにします
# Google Driveにマウント
from google.colab import drive
drive.mount('/content/drive')
次に、プロジェクト固有の作業ディレクトリを作成します。
ディレクトリ構造は /content/drive/MyDrive/PWC/docling となります
# 作業用ディレクトリの作成と移動
demo_name = "docling"
work = f"/content/drive/MyDrive/PWC/{demo_name}"
!mkdir -p $work
%cd $work
!ls
ライブラリのインストール
doclingは、PDFドキュメントを構造化されたデータに変換するためのPythonライブラリです
pipコマンドを使用して、Python Package Index (PyPI) からインストールします。
インストール完了後、Pythonプログラム内でdoclingモジュールが利用可能になります
!pip install docling
Doclingを使用したPDF変換デモ
シンプルな変換例
インポート:
DocumentConverterクラスをインポートします
ソース指定:
URLまたはローカルファイルパスでPDFを指定できます
変換処理:
DocumentConverterのインスタンスを作成
convert()メソッドでPDFを変換
結果出力:
export_to_markdown()で構造化されたMarkdown形式で出力
見出し、テキスト、表などが適切に変換されます
注意点
URLを使用する場合はインターネット接続が必要です
大きなPDFファイルの場合は変換に時間がかかる可能性があります
変換結果の品質はPDFの構造や品質に依存します
# 必要なモジュールのインポート
from docling.document_converter import DocumentConverter
# 変換対象のPDFを指定(URLまたはローカルパス)
source = "https://arxiv.org/pdf/2408.09869"
# コンバーターのインスタンスを作成
converter = DocumentConverter()
# PDFを変換
result = converter.convert(source)
# 結果をMarkdown形式で出力
print(result.document.export_to_markdown()) # "## Docling Technical Report[...]" が出力されます
出力結果
たしかに、よく認識している。

