「Mineru(マイナル)とかいう文書解析のツールガチで化け物級やろ」

2024年11月18日 13:15

スレッド

上記の論文に対してなんJの架空のスレを創造的に書いて。レス番や名前、投稿日時、IDも書き、アンカーは全角で＞＞と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。

1 名無しさん＠お腹いっぱい。 2024/11/18(月) 08:23:45.123 ID:Mine4649
こマ？
ソースは最新のarXivや
https://arxiv.org/abs/2409.18839

2 PDFハンター ◆pdf8x8x8x8 2024/11/18(月) 08:25:12.456 ID:Hunt2929
ガチやで
今までPDFから表とか数式抽出するの地獄やったけど、これ1発でいけるらしい
しかも精度クッソ高い

3 論文マスター 2024/11/18(月) 08:26:33.789 ID:Pape0101
ワイも見たで
特に図7のレイアウト検出の精度やばない？
学術論文、教科書、試験問題、レポートどれも完璧に領域分けてる

4 名無しさん＠お腹いっぱい。 2024/11/18(月) 08:27:45.234 ID:Nubi5656
なんか難しそう...
ワイにも使えるんか？

5 pythonista ◆pyth3939py 2024/11/18(月) 08:29:01.567 ID:Pyth4545
＞＞4
心配せんでええで
GitHubからインストールして、PDF投げ込むだけや
出力はMarkdownかJSONで選べる

6 Deep Learning研究者 2024/11/18(月) 08:30:22.890 ID:Deep7878
UniMERNetの数式認識性能が特にやべえわ
Table 5見てみ？商用のMathpixと互角やで？

7 OCRマスター 2024/11/18(月) 08:31:44.123 ID:Ocr12345
レイアウト検出→数式検出→OCRって順番がええな
特に数式を先にマスクしてからOCRかけるの賢すぎる

8 名無しさん＠お腹いっぱい。 2024/11/18(月) 08:33:15.456 ID:Nubi9999
すまん、ワイも初心者なんやが
これってどういう場面で使うんや？

9 情報検索の達人 2024/11/18(月) 08:34:36.789 ID:Sear6767
＞＞8
例えば論文とか教科書のPDF大量にあるとするやろ？
それを機械学習モデル学習用のデータにしたいときとか
検索システム作るときとか便利やで

10 表マスター 2024/11/18(月) 08:36:58.012 ID:Tabl8989
表認識のStructEqTableもやばいで
セル結合とか複雑な表でもバッチリ認識できる

11 数式ハンター 2024/11/18(月) 08:38:19.345 ID:Form5656
＞＞6
せやな。特にインライン数式の検出がエグい
「100cm²」みたいな簡単なのから「(α₁, α₂, ..., αₙ)」みたいな複雑なのまで対応してる

12 システム開発者 2024/11/18(月) 08:39:40.678 ID:Syst3434
これLLMのRAGシステムと組み合わせたら最強やん
文書まるごと理解できるで

13 PDFハンター ◆pdf8x8x8x8 2024/11/18(月) 08:41:01.901 ID:Hunt2929
＞＞12
せやで！論文にも書いてあるけど、
ChatGPTの登場でこういうPDF解析ツールの需要爆上がりしてるんや

14 レイアウト職人 2024/11/18(月) 08:42:23.234 ID:Layo4242
Table 3見てみ？
既存のDocXchainとかSuryaとか完全に殺しとるやん...

15 名無しさん＠お腹いっぱい。 2024/11/18(月) 08:43:44.567 ID:Mine4649
Shanghai AI Labって中国の研究所やんな
最近めっちゃ良い研究出してね？

16 AI研究者 2024/11/18(月) 08:45:05.890 ID:Aire2323
＞＞15
ほんまそれ
PDFのデータセット21000ページも作ってるらしいで
これ地道な作業やけど大事やわ

17 pythonista ◆pyth3939py 2024/11/18(月) 08:46:27.123 ID:Pyth4545
処理速度はどうなんや？
実用的な速さか？

18 システム開発者 2024/11/18(月) 08:47:48.456 ID:Syst3434
＞＞17
まだ改善の余地ありって論文に書いてあるな
今後高速化するみたいやで

19 OCRマスター 2024/11/18(月) 08:49:09.789 ID:Ocr12345
PaddleOCR使ってるのもナイス選択や
オープンソースでこの精度出せるOCR少ないもんな

20 Deep Learning研究者 2024/11/18(月) 08:50:31.012 ID:Deep7878
ポストプロセスの部分も面白いわ
BBoxの重なり処理とか、人間の読む順序に合わせた並び替えとか

21 名無しさん＠お腹いっぱい。 2024/11/18(月) 08:51:52.345 ID:Nubi5656
＞＞5
サンガツ！
試してみるわ！

22 論文マスター 2024/11/18(月) 08:53:13.678 ID:Pape0101
縦書きの歴史的文書にも対応してるの草
これ日本の古文書とかにも使えるんちゃう？

23 情報検索の達人 2024/11/18(月) 08:54:35.901 ID:Sear6767
＞＞22
その可能性あるな
今後の展開に期待や

24 表マスター 2024/11/18(月) 08:55:56.234 ID:Tabl8989
これ商用利用もOKなんか？
気になるわ

25 PDFハンター ◆pdf8x8x8x8 2024/11/18(月) 08:57:17.567 ID:Hunt2929
＞＞24
GitHubのライセンス見てみ？
Apache License 2.0やから商用利用おkやで

26 数式ハンター 2024/11/18(月) 08:58:38.890 ID:Form5656
手書き数式の認識もできるんか
これマジですごいわ

27 レイアウト職人 2024/11/18(月) 09:00:00.123 ID:Layo4242
＞＞26
ただし論文見る限り、まだ改善の余地ありそうやな
今後のアップデートに期待や

28 AI研究者 2024/11/18(月) 09:01:21.456 ID:Aire2323
これPDF-Extract-Kitっていうライブラリがキモなんやな
そっちも見てみたいわ

29 pythonista ◆pyth3939py 2024/11/18(月) 09:02:42.789 ID:Pyth4545
なんか不具合とか見つけたら
GitHubでIssue立てたらええんやな

30 システム開発者 2024/11/18(月) 09:04:04.012 ID:Syst3434
これ完全に時代を変えるレベルのツールやと思うで
PDF解析の民主化や！

31 OCRマスター 2024/11/18(月) 09:05:25.345 ID:Ocr12345
今までこの手のツール色々試してきたけど
これマジで化け物や
完全に時代が変わるで

32 名無しさん＠お腹いっぱい。 2024/11/18(月) 09:06:46.678 ID:Nubi9999
＞＞9
なるほど！ワイも研究データの整理に使ってみるわ！

33 Deep Learning研究者 2024/11/18(月) 09:08:07.901 ID:Deep7878
これ絶対今後のスタンダードになるで
要警戒や（褒め言葉）

34 論文マスター 2024/11/18(月) 09:09:29.234 ID:Pape0101
新規性についてまとめたで
1. 多様な文書に対応できる統合的な解析
2. PDF-Extract-Kitという独自モデル群
3. 精密な後処理による高品質な出力
これまでの研究はどれも単一タイプの文書に特化してたからな

35 OCRマスター 2024/11/18(月) 09:10:50.567 ID:Ocr12345
＞＞34
せやな
特にデータセットの多様性がエグいわ
・学術論文
・教科書
・試験問題
・財務レポート
・プレゼン資料
全部カバーしてて草

36 Deep Learning研究者 2024/11/18(月) 09:12:11.890 ID:Deep7878
既存手法の限界も上手くまとめとるわ
1. OCRベース：ノイズ多すぎ
2. ライブラリベース：数式とか表に弱い
3. マルチモジュール：論文以外ダメ
4. End-to-End MLLM：コスト高すぎ

37 システム開発者 2024/11/18(月) 09:13:33.123 ID:Syst3434
これまでの研究って単一のタスクばっかりやったよな
・レイアウト分析だけ
・数式認識だけ
・表認識だけ
これ全部統合したのが革新的やわ

38 表マスター 2024/11/18(月) 09:14:54.456 ID:Tabl8989
しかも各モジュールの精度も既存手法より良いの草
全部統合して、かつ各パーツの性能も向上させとる
普通こういうの難しいんやけどな

39 数式ハンター 2024/11/18(月) 09:16:15.789 ID:Form5656
論文のFigure 1のワークフローも賢いわ
前処理→解析→後処理→フォーマット変換
って感じで無駄がない

40 PDFハンター ◆pdf8x8x8x8 2024/11/18(月) 09:17:37.012 ID:Hunt2929
既存のEnd-to-EndのMLLMベースの手法と比べても
推論コストが低いのがでかいな
GPUパワー少なくて済むわ

41 名無しさん＠お腹いっぱい。 2024/11/18(月) 09:18:58.345 ID:Mine4649
Shanghai AI Labマジで天才揃いやな
こんな複雑なシステム作れるとか

42 AI研究者 2024/11/18(月) 09:20:19.678 ID:Aire2323
＞＞41
ほんま他の研究所もこういうの見習って欲しいわ
オープンソースで出してくれるのも偉い

43 レイアウト職人 2024/11/18(月) 09:21:40.901 ID:Layo4242
新規性でもう一つ重要なのが
人間の読む順序を意識した後処理やな
これ地味に大事

44 pythonista ◆pyth3939py 2024/11/18(月) 09:23:02.234 ID:Pyth4545
モジュール式のアプローチ取ってるから
将来的な拡張も楽そうやな
これ大事やで

45 情報検索の達人 2024/11/18(月) 09:24:23.567 ID:Sear6767
今までのツールって
英語の論文しか対応してないのばっかやったけど
これ中国語にも対応してるの革新的やな

46 名無しさん＠お腹いっぱい。 2024/11/18(月) 09:25:44.890 ID:Nubi5656
なるほど、つまりこれまでにないレベルの
統合的なアプローチってことなんか
すごいなぁ...

47 AI研究者 2024/11/18(月) 09:27:06.123 ID:Aire2323
PDF-Extract-Kitが一番気になるわ
実世界のデータで学習させたSOTAモデル群らしいで
https://github.com/opendatalab/PDF-Extract-Kit

48 Deep Learning研究者 2024/11/18(月) 09:28:27.456 ID:Deep7878
＞＞47
主要なモデル5個あるな
・レイアウト検出
・数式検出
・表認識
・数式認識
・OCR
全部オープンソースや

49 PDFハンター ◆pdf8x8x8x8 2024/11/18(月) 09:29:48.789 ID:Hunt2929
特にレイアウト検出モデルのデータ収集手法エグいわ

多様なPDF集める
ビジュアル特徴でクラスタリング
クラスタの中心からサンプリング
21000ページ分アノテーション
50 表マスター 2024/11/18(月) 09:31:10.012 ID:Tabl8989
＞＞49
その後のイテレーティブな改善プロセスもすごいで

検証セットで性能評価
苦手なカテゴリを特定
そのカテゴリのデータ重点的に追加
モデル再学習
51 OCRマスター 2024/11/18(月) 09:32:31.345 ID:Ocr12345
数式検出モデルも面白いな
インライン数式24157個
ディスプレイ数式1829個
のデータセット作っとる
これ地道すぎる...

52 数式ハンター 2024/11/18(月) 09:33:52.678 ID:Form5656
数式認識はUniMERNetやな
UniMER-1Mってデータセットで学習してて
これがでかい
印刷体も手書きも両方いける

53 レイアウト職人 2024/11/18(月) 09:35:13.901 ID:Layo4242
結局こういうの、データセットの質が全てやからな
Shanghai AI Labすげえわ
データ作りに全力投球や

54 システム開発者 2024/11/18(月) 09:36:35.234 ID:Syst3434
表認識もTableMasterとStructEqTable使ってて
これPubTabNetとDocGenomeで学習済みや
複雑な表も対応できる

55 名無しさん＠お腹いっぱい。 2024/11/18(月) 09:37:56.567 ID:Nubi9999
ワイ初心者やけど、これって今後も改善されていくんか？

56 pythonista ◆pyth3939py 2024/11/18(月) 09:39:17.890 ID:Pyth4545
＞＞55
せやで！論文の最後に今後の展開書いてあるで

コアコンポーネントの強化
使いやすさと推論速度の改善
評価ベンチマークの整備
57 論文マスター 2024/11/18(月) 09:40:39.123 ID:Pape0101
PDF-Extract-Kitのすごいところは
実世界のデータで徹底的に鍛えてることやな
机上の空論じゃなくて実践的や

58 情報検索の達人 2024/11/18(月) 09:42:00.456 ID:Sear6767
実際これ使ってる企業も増えてきてるらしいで
特にRAGシステム作ってるところとか
文書理解系のスタートアップとか

59 AI研究者 2024/11/18(月) 09:43:21.789 ID:Aire2323
データセット作りの努力を惜しまんのが
中国の研究所の強みやな
地道な作業も重要視してる

60 名無しさん＠お腹いっぱい。 2024/11/18(月) 09:44:43.012 ID:Mine4649
これもうPDF解析のデファクトスタンダードになるやろ
みんな使うようになるで

論文PDF

原文

日本語訳

キーワード

このスレのキーワードをスペース区切りで重要な日本語の用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。

PDF解析レイアウト検出数式認識データセット_作成多様性対応