【論文】IBMのDocling、PDFテーブル認識がすごすぎやろ...【オープンソース】

2024年11月8日 22:28

スレッド

上記の論文に対してなんJの架空のスレを創造的に書いて。レス番や名前、投稿日時、IDも書き、アンカーは全角で＞＞と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。

1 名無しさん＠お腹いっぱい 2024/11/08(金) 14:23:45.123 ID:pdf0x123

IBMが論文出してるの見つけたんやが、こいつすごない？ PDFからJSONやマークダウンに変換してくれて、しかもオープンソースなんやで https://arxiv.org/abs/2408.09869

2 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:25:12.234 ID:inf0y234

普通にすごいな特にTableFormerの table structure recognitionは業界トップクラスやで PDFのテーブル構造認識って地味に難しいんや

3 機械学習エンジニア 2024/11/08(金) 14:26:45.345 ID:ml00z345

オープンソースでこのレベルのもの出してくるのは珍しいわ商用ツールに匹敵する品質やん

4 PDF変換初心者 2024/11/08(金) 14:28:23.456 ID:beg1a456

なんかようわからんけど、これ使えば論文のPDF簡単に扱えるってこと？

5 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:30:11.567 ID:inf0y234

＞＞４そうや。論文のPDFから必要な情報を抽出したり、構造化されたデータに変換したりできるんや例えば、タイトルや著者、セクション、図表なんかを自動で認識して取り出せる

6 システムアーキテクト 2024/11/08(金) 14:32:45.678 ID:sys2b678

実装もクリーンやな拡張性考えてモジュール分けされてるし、新しいモデル追加しやすい設計になってる

7 NLP研究者 2024/11/08(金) 14:34:23.789 ID:nlp3c789

これLLMのRAGパイプラインに組み込むの有効そうやな PDFから良質なチャンク作れそう

8 PDF変換初心者 2024/11/08(金) 14:36:12.890 ID:beg1a456

＞＞５へぇ〜すごいやん！普通のPCでも動く？

9 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:38:34.901 ID:inf0y234

＞＞８ページあたり数秒で処理できるで論文にも書いてあるけど、4スレッドのCPUで225ページ処理するのに約6分くらいや

10 データサイエンティスト 2024/11/08(金) 14:40:12.012 ID:dat4d012

これ地味にすごいのが、OCR機能もついてるところやなスキャンPDFにも対応できる

11 フロントエンド開発者 2024/11/08(金) 14:42:45.123 ID:fro5e123

UIコンポーネントの実装例も提供されてるのええな React使ってるけど結構モダンな作りしてる

12 コンピュータビジョン研究者 2024/11/08(金) 14:44:23.234 ID:vis6f234

DocLayNetのレイアウト認識モデルが良い仕事してるな従来のPubLayNetより汎用性高いし

13 OSS開発者 2024/11/08(金) 14:46:12.345 ID:oss7g345

MITライセンスなのも良心的やな商用利用も問題なさそう

14 セキュリティ専門家 2024/11/08(金) 14:48:45.456 ID:sec8h456

オンプレミスで動かせるのもええポイントやデータ漏洩の心配せんでええし

15 名無しさん＠お腹いっぱい 2024/11/08(金) 14:50:23.567 ID:pdf0x123

なるほどなぁみんな詳しいわ

16 バックエンド開発者 2024/11/08(金) 14:52:12.678 ID:bac9i678

APIの設計もシンプルでわかりやすいな from docling.document_converter import DocumentConverter って感じで直感的に使える

17 研究インターン 2024/11/08(金) 14:54:45.789 ID:int0j789

これ使って論文の前処理やってみようかな今まで手作業でやってたとこあるし

18 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:56:23.890 ID:inf0y234

＞＞１７ええと思うで特にテーブルの構造認識は他のOSSツールより精度良いし

19 データエンジニア 2024/11/08(金) 14:58:12.901 ID:dat1k901

バッチ処理にも対応してるのがありがたいわ大量のPDF一気に処理できる

20 クラウドアーキテクト 2024/11/08(金) 15:00:45.012 ID:clo2l012

Dockerfileも提供されてるし、クラウドデプロイも楽そうやな

21 数式処理の専門家 2024/11/08(金) 15:02:23.123 ID:mat3m123

数式の認識もまあまあいけるな LaTeX形式で抽出できるし

22 品質管理エンジニア 2024/11/08(金) 15:04:12.234 ID:qua4n234

テストカバレッジもしっかりしてそうやなコード品質高い印象

23 名無しさん＠お腹いっぱい 2024/11/08(金) 15:06:45.345 ID:new5o345

でもこれ商用ツールより優れてるの？

24 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 15:08:23.456 ID:inf0y234

＞＞２３商用ツールの方が総合的な機能は多いけど、テーブル認識に関しては互角かそれ以上やななにより無料で使えるのが強み

25 デジタルアーカイブ専門家 2024/11/08(金) 15:10:12.567 ID:arc6p567

文書保存の観点からも良いツールやな構造化データで保存できるのは大きい

26 機械学習エンジニア 2024/11/08(金) 15:12:45.678 ID:ml00z345

＞＞２４同意特にアカデミックな用途なら十分すぎる性能やと思う

27 PDF処理初心者 2024/11/08(金) 15:14:23.789 ID:beg7q789

みなさんありがとう！勉強になったわ

28 ソフトウェアアーキテクト 2024/11/08(金) 15:16:12.890 ID:sof8r890

これベースに独自機能追加して拡張していけそうやなプラグイン的な仕組みもありそう

29 画像処理研究者 2024/11/08(金) 15:18:45.901 ID:img9s901

DPIの設定でパフォーマンスと精度のトレードオフできるのも良いな用途に応じて調整できる

30 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 15:20:23.012 ID:inf0y234

まあ完璧ではないけど、オープンソースとしては画期的な成果やな今後の発展も期待できる

31 名無しさん＠お腹いっぱい 2024/11/08(金) 15:22:12.123 ID:pdf0x123

みんなほんまありがとう勉強になったわ

32 ライブラリ開発者 2024/11/08(金) 15:24:45.234 ID:lib0t234

依存関係もミニマルに抑えられてるのがナイスやなメンテしやすそう

論文PDF

原文

日本語訳

キーワード

このスレのキーワードをスペース区切りで重要な用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。

DocLayNet PDF_変換 TableFormer オープンソース構造化データ