【論文】IBMのDocling、PDFテーブル認識がすごすぎやろ...【オープンソース】
スレッド
上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。
1 名無しさん@お腹いっぱい 2024/11/08(金) 14:23:45.123 ID:pdf0x123
IBMが論文出してるの見つけたんやが、こいつすごない? PDFからJSONやマークダウンに変換してくれて、しかもオープンソースなんやで https://arxiv.org/abs/2408.09869
2 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:25:12.234 ID:inf0y234
普通にすごいな 特にTableFormerの table structure recognitionは業界トップクラスやで PDFのテーブル構造認識って地味に難しいんや
3 機械学習エンジニア 2024/11/08(金) 14:26:45.345 ID:ml00z345
オープンソースでこのレベルのもの出してくるのは珍しいわ 商用ツールに匹敵する品質やん
4 PDF変換初心者 2024/11/08(金) 14:28:23.456 ID:beg1a456
なんかようわからんけど、これ使えば論文のPDF簡単に扱えるってこと?
5 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:30:11.567 ID:inf0y234
>>4 そうや。論文のPDFから必要な情報を抽出したり、構造化されたデータに変換したりできるんや 例えば、タイトルや著者、セクション、図表なんかを自動で認識して取り出せる
6 システムアーキテクト 2024/11/08(金) 14:32:45.678 ID:sys2b678
実装もクリーンやな 拡張性考えてモジュール分けされてるし、新しいモデル追加しやすい設計になってる
7 NLP研究者 2024/11/08(金) 14:34:23.789 ID:nlp3c789
これLLMのRAGパイプラインに組み込むの有効そうやな PDFから良質なチャンク作れそう
8 PDF変換初心者 2024/11/08(金) 14:36:12.890 ID:beg1a456
>>5 へぇ〜すごいやん! 普通のPCでも動く?
9 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:38:34.901 ID:inf0y234
>>8 ページあたり数秒で処理できるで 論文にも書いてあるけど、4スレッドのCPUで225ページ処理するのに約6分くらいや
10 データサイエンティスト 2024/11/08(金) 14:40:12.012 ID:dat4d012
これ地味にすごいのが、OCR機能もついてるところやな スキャンPDFにも対応できる
11 フロントエンド開発者 2024/11/08(金) 14:42:45.123 ID:fro5e123
UIコンポーネントの実装例も提供されてるのええな React使ってるけど結構モダンな作りしてる
12 コンピュータビジョン研究者 2024/11/08(金) 14:44:23.234 ID:vis6f234
DocLayNetのレイアウト認識モデルが良い仕事してるな 従来のPubLayNetより汎用性高いし
13 OSS開発者 2024/11/08(金) 14:46:12.345 ID:oss7g345
MITライセンスなのも良心的やな 商用利用も問題なさそう
14 セキュリティ専門家 2024/11/08(金) 14:48:45.456 ID:sec8h456
オンプレミスで動かせるのもええポイントや データ漏洩の心配せんでええし
15 名無しさん@お腹いっぱい 2024/11/08(金) 14:50:23.567 ID:pdf0x123
なるほどなぁ みんな詳しいわ
16 バックエンド開発者 2024/11/08(金) 14:52:12.678 ID:bac9i678
APIの設計もシンプルでわかりやすいな from docling.document_converter import DocumentConverter って感じで直感的に使える
17 研究インターン 2024/11/08(金) 14:54:45.789 ID:int0j789
これ使って論文の前処理やってみようかな 今まで手作業でやってたとこあるし
18 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 14:56:23.890 ID:inf0y234
>>17 ええと思うで 特にテーブルの構造認識は他のOSSツールより精度良いし
19 データエンジニア 2024/11/08(金) 14:58:12.901 ID:dat1k901
バッチ処理にも対応してるのがありがたいわ 大量のPDF一気に処理できる
20 クラウドアーキテクト 2024/11/08(金) 15:00:45.012 ID:clo2l012
Dockerfileも提供されてるし、クラウドデプロイも楽そうやな
21 数式処理の専門家 2024/11/08(金) 15:02:23.123 ID:mat3m123
数式の認識もまあまあいけるな LaTeX形式で抽出できるし
22 品質管理エンジニア 2024/11/08(金) 15:04:12.234 ID:qua4n234
テストカバレッジもしっかりしてそうやな コード品質高い印象
23 名無しさん@お腹いっぱい 2024/11/08(金) 15:06:45.345 ID:new5o345
でもこれ商用ツールより優れてるの?
24 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 15:08:23.456 ID:inf0y234
>>23 商用ツールの方が総合的な機能は多いけど、テーブル認識に関しては互角かそれ以上やな なにより無料で使えるのが強み
25 デジタルアーカイブ専門家 2024/11/08(金) 15:10:12.567 ID:arc6p567
文書保存の観点からも良いツールやな 構造化データで保存できるのは大きい
26 機械学習エンジニア 2024/11/08(金) 15:12:45.678 ID:ml00z345
>>24 同意 特にアカデミックな用途なら十分すぎる性能やと思う
27 PDF処理初心者 2024/11/08(金) 15:14:23.789 ID:beg7q789
みなさんありがとう! 勉強になったわ
28 ソフトウェアアーキテクト 2024/11/08(金) 15:16:12.890 ID:sof8r890
これベースに独自機能追加して拡張していけそうやな プラグイン的な仕組みもありそう
29 画像処理研究者 2024/11/08(金) 15:18:45.901 ID:img9s901
DPIの設定でパフォーマンスと精度のトレードオフできるのも良いな 用途に応じて調整できる
30 情報処理系研究者 ◆InfoProc22 2024/11/08(金) 15:20:23.012 ID:inf0y234
まあ完璧ではないけど、オープンソースとしては画期的な成果やな 今後の発展も期待できる
31 名無しさん@お腹いっぱい 2024/11/08(金) 15:22:12.123 ID:pdf0x123
みんなほんまありがとう 勉強になったわ
32 ライブラリ開発者 2024/11/08(金) 15:24:45.234 ID:lib0t234
依存関係もミニマルに抑えられてるのがナイスやな メンテしやすそう
論文PDF
原文
日本語訳
キーワード
このスレのキーワードをスペース区切りで重要な用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。
DocLayNet PDF_変換 TableFormer オープンソース 構造化データ