「Mineru(マイナル)とかいう文書解析のツールガチで化け物級やろ」 1 hirasu1231 2024年11月18日 13:15 Papers with Code - MinerU: An Open-Source Solution for Precise Document Content Extraction Implemented in 2 code libraries. paperswithcode.com スレッド上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。1 名無しさん@お腹いっぱい。 2024/11/18(月) 08:23:45.123 ID:Mine4649こマ?ソースは最新のarXivやhttps://arxiv.org/abs/2409.188392 PDFハンター ◆pdf8x8x8x8 2024/11/18(月) 08:25:12.456 ID:Hunt2929ガチやで今までPDFから表とか数式抽出するの地獄やったけど、これ1発でいけるらしいしかも精度クッソ高い3 論文マスター 2024/11/18(月) 08:26:33.789 ID:Pape0101 ワイも見たで特に図7のレイアウト検出の精度やばない?学術論文、教科書、試験問題、レポートどれも完璧に領域分けてる4 名無しさん@お腹いっぱい。 2024/11/18(月) 08:27:45.234 ID:Nubi5656なんか難しそう...ワイにも使えるんか?5 pythonista ◆pyth3939py 2024/11/18(月) 08:29:01.567 ID:Pyth4545>>4心配せんでええでGitHubからインストールして、PDF投げ込むだけや出力はMarkdownかJSONで選べる6 Deep Learning研究者 2024/11/18(月) 08:30:22.890 ID:Deep7878UniMERNetの数式認識性能が特にやべえわTable 5見てみ?商用のMathpixと互角やで?7 OCRマスター 2024/11/18(月) 08:31:44.123 ID:Ocr12345レイアウト検出→数式検出→OCRって順番がええな特に数式を先にマスクしてからOCRかけるの賢すぎる8 名無しさん@お腹いっぱい。 2024/11/18(月) 08:33:15.456 ID:Nubi9999すまん、ワイも初心者なんやがこれってどういう場面で使うんや?9 情報検索の達人 2024/11/18(月) 08:34:36.789 ID:Sear6767>>8例えば論文とか教科書のPDF大量にあるとするやろ?それを機械学習モデル学習用のデータにしたいときとか検索システム作るときとか便利やで10 表マスター 2024/11/18(月) 08:36:58.012 ID:Tabl8989表認識のStructEqTableもやばいでセル結合とか複雑な表でもバッチリ認識できる11 数式ハンター 2024/11/18(月) 08:38:19.345 ID:Form5656>>6せやな。特にインライン数式の検出がエグい「100cm²」みたいな簡単なのから「(α₁, α₂, ..., αₙ)」みたいな複雑なのまで対応してる12 システム開発者 2024/11/18(月) 08:39:40.678 ID:Syst3434これLLMのRAGシステムと組み合わせたら最強やん文書まるごと理解できるで13 PDFハンター ◆pdf8x8x8x8 2024/11/18(月) 08:41:01.901 ID:Hunt2929>>12せやで!論文にも書いてあるけど、ChatGPTの登場でこういうPDF解析ツールの需要爆上がりしてるんや14 レイアウト職人 2024/11/18(月) 08:42:23.234 ID:Layo4242Table 3見てみ?既存のDocXchainとかSuryaとか完全に殺しとるやん...15 名無しさん@お腹いっぱい。 2024/11/18(月) 08:43:44.567 ID:Mine4649Shanghai AI Labって中国の研究所やんな最近めっちゃ良い研究出してね?16 AI研究者 2024/11/18(月) 08:45:05.890 ID:Aire2323>>15ほんまそれPDFのデータセット21000ページも作ってるらしいでこれ地道な作業やけど大事やわ17 pythonista ◆pyth3939py 2024/11/18(月) 08:46:27.123 ID:Pyth4545処理速度はどうなんや?実用的な速さか?18 システム開発者 2024/11/18(月) 08:47:48.456 ID:Syst3434>>17まだ改善の余地ありって論文に書いてあるな今後高速化するみたいやで19 OCRマスター 2024/11/18(月) 08:49:09.789 ID:Ocr12345PaddleOCR使ってるのもナイス選択やオープンソースでこの精度出せるOCR少ないもんな20 Deep Learning研究者 2024/11/18(月) 08:50:31.012 ID:Deep7878ポストプロセスの部分も面白いわBBoxの重なり処理とか、人間の読む順序に合わせた並び替えとか21 名無しさん@お腹いっぱい。 2024/11/18(月) 08:51:52.345 ID:Nubi5656>>5サンガツ!試してみるわ!22 論文マスター 2024/11/18(月) 08:53:13.678 ID:Pape0101縦書きの歴史的文書にも対応してるの草これ日本の古文書とかにも使えるんちゃう?23 情報検索の達人 2024/11/18(月) 08:54:35.901 ID:Sear6767>>22その可能性あるな今後の展開に期待や24 表マスター 2024/11/18(月) 08:55:56.234 ID:Tabl8989これ商用利用もOKなんか?気になるわ25 PDFハンター ◆pdf8x8x8x8 2024/11/18(月) 08:57:17.567 ID:Hunt2929>>24GitHubのライセンス見てみ?Apache License 2.0やから商用利用おkやで26 数式ハンター 2024/11/18(月) 08:58:38.890 ID:Form5656手書き数式の認識もできるんかこれマジですごいわ27 レイアウト職人 2024/11/18(月) 09:00:00.123 ID:Layo4242>>26ただし論文見る限り、まだ改善の余地ありそうやな今後のアップデートに期待や28 AI研究者 2024/11/18(月) 09:01:21.456 ID:Aire2323これPDF-Extract-Kitっていうライブラリがキモなんやなそっちも見てみたいわ29 pythonista ◆pyth3939py 2024/11/18(月) 09:02:42.789 ID:Pyth4545なんか不具合とか見つけたらGitHubでIssue立てたらええんやな30 システム開発者 2024/11/18(月) 09:04:04.012 ID:Syst3434これ完全に時代を変えるレベルのツールやと思うでPDF解析の民主化や!31 OCRマスター 2024/11/18(月) 09:05:25.345 ID:Ocr12345今までこの手のツール色々試してきたけどこれマジで化け物や完全に時代が変わるで32 名無しさん@お腹いっぱい。 2024/11/18(月) 09:06:46.678 ID:Nubi9999>>9なるほど!ワイも研究データの整理に使ってみるわ!33 Deep Learning研究者 2024/11/18(月) 09:08:07.901 ID:Deep7878これ絶対今後のスタンダードになるで要警戒や(褒め言葉)34 論文マスター 2024/11/18(月) 09:09:29.234 ID:Pape0101新規性についてまとめたで1. 多様な文書に対応できる統合的な解析2. PDF-Extract-Kitという独自モデル群3. 精密な後処理による高品質な出力これまでの研究はどれも単一タイプの文書に特化してたからな35 OCRマスター 2024/11/18(月) 09:10:50.567 ID:Ocr12345>>34せやな特にデータセットの多様性がエグいわ・学術論文・教科書・試験問題・財務レポート・プレゼン資料全部カバーしてて草36 Deep Learning研究者 2024/11/18(月) 09:12:11.890 ID:Deep7878既存手法の限界も上手くまとめとるわ1. OCRベース:ノイズ多すぎ2. ライブラリベース:数式とか表に弱い3. マルチモジュール:論文以外ダメ4. End-to-End MLLM:コスト高すぎ37 システム開発者 2024/11/18(月) 09:13:33.123 ID:Syst3434これまでの研究って単一のタスクばっかりやったよな・レイアウト分析だけ・数式認識だけ・表認識だけこれ全部統合したのが革新的やわ38 表マスター 2024/11/18(月) 09:14:54.456 ID:Tabl8989しかも各モジュールの精度も既存手法より良いの草全部統合して、かつ各パーツの性能も向上させとる普通こういうの難しいんやけどな39 数式ハンター 2024/11/18(月) 09:16:15.789 ID:Form5656論文のFigure 1のワークフローも賢いわ前処理→解析→後処理→フォーマット変換って感じで無駄がない40 PDFハンター ◆pdf8x8x8x8 2024/11/18(月) 09:17:37.012 ID:Hunt2929既存のEnd-to-EndのMLLMベースの手法と比べても推論コストが低いのがでかいなGPUパワー少なくて済むわ41 名無しさん@お腹いっぱい。 2024/11/18(月) 09:18:58.345 ID:Mine4649Shanghai AI Labマジで天才揃いやなこんな複雑なシステム作れるとか42 AI研究者 2024/11/18(月) 09:20:19.678 ID:Aire2323>>41ほんま他の研究所もこういうの見習って欲しいわオープンソースで出してくれるのも偉い43 レイアウト職人 2024/11/18(月) 09:21:40.901 ID:Layo4242新規性でもう一つ重要なのが人間の読む順序を意識した後処理やなこれ地味に大事44 pythonista ◆pyth3939py 2024/11/18(月) 09:23:02.234 ID:Pyth4545モジュール式のアプローチ取ってるから将来的な拡張も楽そうやなこれ大事やで45 情報検索の達人 2024/11/18(月) 09:24:23.567 ID:Sear6767今までのツールって英語の論文しか対応してないのばっかやったけどこれ中国語にも対応してるの革新的やな46 名無しさん@お腹いっぱい。 2024/11/18(月) 09:25:44.890 ID:Nubi5656なるほど、つまりこれまでにないレベルの統合的なアプローチってことなんかすごいなぁ...47 AI研究者 2024/11/18(月) 09:27:06.123 ID:Aire2323PDF-Extract-Kitが一番気になるわ実世界のデータで学習させたSOTAモデル群らしいでhttps://github.com/opendatalab/PDF-Extract-Kit48 Deep Learning研究者 2024/11/18(月) 09:28:27.456 ID:Deep7878>>47主要なモデル5個あるな・レイアウト検出・数式検出・表認識・数式認識・OCR全部オープンソースや49 PDFハンター ◆pdf8x8x8x8 2024/11/18(月) 09:29:48.789 ID:Hunt2929特にレイアウト検出モデルのデータ収集手法エグいわ多様なPDF集めるビジュアル特徴でクラスタリングクラスタの中心からサンプリング21000ページ分アノテーション50 表マスター 2024/11/18(月) 09:31:10.012 ID:Tabl8989>>49その後のイテレーティブな改善プロセスもすごいで検証セットで性能評価苦手なカテゴリを特定そのカテゴリのデータ重点的に追加モデル再学習51 OCRマスター 2024/11/18(月) 09:32:31.345 ID:Ocr12345数式検出モデルも面白いなインライン数式24157個ディスプレイ数式1829個のデータセット作っとるこれ地道すぎる...52 数式ハンター 2024/11/18(月) 09:33:52.678 ID:Form5656数式認識はUniMERNetやなUniMER-1Mってデータセットで学習しててこれがでかい印刷体も手書きも両方いける53 レイアウト職人 2024/11/18(月) 09:35:13.901 ID:Layo4242結局こういうの、データセットの質が全てやからなShanghai AI Labすげえわデータ作りに全力投球や54 システム開発者 2024/11/18(月) 09:36:35.234 ID:Syst3434表認識もTableMasterとStructEqTable使っててこれPubTabNetとDocGenomeで学習済みや複雑な表も対応できる55 名無しさん@お腹いっぱい。 2024/11/18(月) 09:37:56.567 ID:Nubi9999ワイ初心者やけど、これって今後も改善されていくんか?56 pythonista ◆pyth3939py 2024/11/18(月) 09:39:17.890 ID:Pyth4545>>55せやで!論文の最後に今後の展開書いてあるでコアコンポーネントの強化使いやすさと推論速度の改善評価ベンチマークの整備57 論文マスター 2024/11/18(月) 09:40:39.123 ID:Pape0101PDF-Extract-Kitのすごいところは実世界のデータで徹底的に鍛えてることやな机上の空論じゃなくて実践的や58 情報検索の達人 2024/11/18(月) 09:42:00.456 ID:Sear6767実際これ使ってる企業も増えてきてるらしいで特にRAGシステム作ってるところとか文書理解系のスタートアップとか59 AI研究者 2024/11/18(月) 09:43:21.789 ID:Aire2323データセット作りの努力を惜しまんのが中国の研究所の強みやな地道な作業も重要視してる60 名無しさん@お腹いっぱい。 2024/11/18(月) 09:44:43.012 ID:Mine4649これもうPDF解析のデファクトスタンダードになるやろみんな使うようになるで論文PDF 原文2409.18839v1.pdf4.22 MBファイルダウンロードについて ダウンロード 日本語訳キーワードこのスレのキーワードをスペース区切りで重要な日本語の用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。PDF解析 レイアウト検出 数式認識 データセット_作成 多様性対応 ダウンロード copy #論文 #PDF解析 #レイアウト検出 #数式認識 #データセット_作成 #多様性対応 1 この記事が気に入ったらサポートをしてみませんか? サポート