【論文】IBMのDocling、PDFテーブル認識がすごすぎやろ...【オープンソース】


スレッド

上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。

1 名無しさん@お腹いっぱい 2024/11/08(金) 14:23:45.123 ID:pdf0x123

IBMが論文出してるの見つけたんやが、こいつすごない? PDFからJSONやマークダウンに変換してくれて、しかもオープンソースなんやで https://arxiv.org/abs/2408.09869

2 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:25:12.234 ID:inf0y234

普通にすごいな 特にTableFormerの table structure recognitionは業界トップクラスやで PDFのテーブル構造認識って地味に難しいんや

3 機械学習エンジニア 2024/11/08(金) 14:26:45.345 ID:ml00z345

オープンソースでこのレベルのもの出してくるのは珍しいわ 商用ツールに匹敵する品質やん

4 PDF変換初心者 2024/11/08(金) 14:28:23.456 ID:beg1a456

なんかようわからんけど、これ使えば論文のPDF簡単に扱えるってこと?

5 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:30:11.567 ID:inf0y234

>>4 そうや。論文のPDFから必要な情報を抽出したり、構造化されたデータに変換したりできるんや 例えば、タイトルや著者、セクション、図表なんかを自動で認識して取り出せる

6 システムアーキテクト 2024/11/08(金) 14:32:45.678 ID:sys2b678

実装もクリーンやな 拡張性考えてモジュール分けされてるし、新しいモデル追加しやすい設計になってる

7 NLP研究者 2024/11/08(金) 14:34:23.789 ID:nlp3c789

これLLMのRAGパイプラインに組み込むの有効そうやな PDFから良質なチャンク作れそう

8 PDF変換初心者 2024/11/08(金) 14:36:12.890 ID:beg1a456

>>5 へぇ〜すごいやん! 普通のPCでも動く?

9 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:38:34.901 ID:inf0y234

>>8 ページあたり数秒で処理できるで 論文にも書いてあるけど、4スレッドのCPUで225ページ処理するのに約6分くらいや

10 データサイエンティスト 2024/11/08(金) 14:40:12.012 ID:dat4d012

これ地味にすごいのが、OCR機能もついてるところやな スキャンPDFにも対応できる

11 フロントエンド開発者 2024/11/08(金) 14:42:45.123 ID:fro5e123

UIコンポーネントの実装例も提供されてるのええな React使ってるけど結構モダンな作りしてる

12 コンピュータビジョン研究者 2024/11/08(金) 14:44:23.234 ID:vis6f234

DocLayNetのレイアウト認識モデルが良い仕事してるな 従来のPubLayNetより汎用性高いし

13 OSS開発者 2024/11/08(金) 14:46:12.345 ID:oss7g345

MITライセンスなのも良心的やな 商用利用も問題なさそう

14 セキュリティ専門家 2024/11/08(金) 14:48:45.456 ID:sec8h456

オンプレミスで動かせるのもええポイントや データ漏洩の心配せんでええし

15 名無しさん@お腹いっぱい 2024/11/08(金) 14:50:23.567 ID:pdf0x123

なるほどなぁ みんな詳しいわ

16 バックエンド開発者 2024/11/08(金) 14:52:12.678 ID:bac9i678

APIの設計もシンプルでわかりやすいな from docling.document_converter import DocumentConverter って感じで直感的に使える

17 研究インターン 2024/11/08(金) 14:54:45.789 ID:int0j789

これ使って論文の前処理やってみようかな 今まで手作業でやってたとこあるし

18 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:56:23.890 ID:inf0y234

>>17 ええと思うで 特にテーブルの構造認識は他のOSSツールより精度良いし

19 データエンジニア 2024/11/08(金) 14:58:12.901 ID:dat1k901

バッチ処理にも対応してるのがありがたいわ 大量のPDF一気に処理できる

20 クラウドアーキテクト 2024/11/08(金) 15:00:45.012 ID:clo2l012

Dockerfileも提供されてるし、クラウドデプロイも楽そうやな

21 数式処理の専門家 2024/11/08(金) 15:02:23.123 ID:mat3m123

数式の認識もまあまあいけるな LaTeX形式で抽出できるし

22 品質管理エンジニア 2024/11/08(金) 15:04:12.234 ID:qua4n234

テストカバレッジもしっかりしてそうやな コード品質高い印象

23 名無しさん@お腹いっぱい 2024/11/08(金) 15:06:45.345 ID:new5o345

でもこれ商用ツールより優れてるの?

24 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 15:08:23.456 ID:inf0y234

>>23 商用ツールの方が総合的な機能は多いけど、テーブル認識に関しては互角かそれ以上やな なにより無料で使えるのが強み

25 デジタルアーカイブ専門家 2024/11/08(金) 15:10:12.567 ID:arc6p567

文書保存の観点からも良いツールやな 構造化データで保存できるのは大きい

26 機械学習エンジニア 2024/11/08(金) 15:12:45.678 ID:ml00z345

>>24 同意 特にアカデミックな用途なら十分すぎる性能やと思う

27 PDF処理初心者 2024/11/08(金) 15:14:23.789 ID:beg7q789

みなさんありがとう! 勉強になったわ

28 ソフトウェアアーキテクト 2024/11/08(金) 15:16:12.890 ID:sof8r890

これベースに独自機能追加して拡張していけそうやな プラグイン的な仕組みもありそう

29 画像処理研究者 2024/11/08(金) 15:18:45.901 ID:img9s901

DPIの設定でパフォーマンスと精度のトレードオフできるのも良いな 用途に応じて調整できる

30 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 15:20:23.012 ID:inf0y234

まあ完璧ではないけど、オープンソースとしては画期的な成果やな 今後の発展も期待できる

31 名無しさん@お腹いっぱい 2024/11/08(金) 15:22:12.123 ID:pdf0x123

みんなほんまありがとう 勉強になったわ

32 ライブラリ開発者 2024/11/08(金) 15:24:45.234 ID:lib0t234

依存関係もミニマルに抑えられてるのがナイスやな メンテしやすそう

論文PDF

 原文


  日本語訳


キーワード

このスレのキーワードをスペース区切りで重要な用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。

DocLayNet PDF_変換 TableFormer オープンソース 構造化データ

いいなと思ったら応援しよう!