PDF OCRツールとしてLlamaParseを利用
こんにちは。
以前こちら ↓ の記事にて、スキャンPDFをテキスト化するためにOCRツールを比較検討いたしました。
その時点では、PDFを読み込めるAIツールも検討してみたのですが、品質の高くないスキャンPDFの場合に利用できそうなものがなかったためあきらめていました。
今回、非常に有望なAIを見つけたので共有したいと思います。
LlamaParse
今回紹介するのは LlamaParseというツールです。
ログイン後に左上の Tool > Parseをクリックすればすぐに利用できます。
OCRにかけたいPDFを右側の枠にドロップすれば開始されます。
以前の記事でスビートマスター日本史問題集のスキャンPDFをいろいろなOCRツールで読み取りをしてみました。
その際に完全な読取りはどのツールもダメでしたが、複数のツールの読取り結果を組み合わせて最適化をすると非常に面倒な手順を踏みました。
さて、LlamaParseでの読取り結果はどうでしょうか。
結果の画像がこちらです。
前回結果の一番良かったGoogleドキュメントでの読取り結果と比較してみます。
Googleドキュメント
スピード・チェック
1
日本文化のあけぼの
1 文化の始まり (旧石器・縄文・弥生文化)
●約1万年前まで続いた ( 1 ) は氷河時代とも呼ばれ、この時代の化石人骨はいくつか 発見されている。 静岡県 (2) 人 沖縄県 (3) 人や山下町洞人など,いずれも新人 段階のものとされている。
2 人類がまだ金属器を知らなかった石器時代は、基本的に打ち欠いただけの(4)のみ を用いる(5)時代と,完新世以降, 石器を磨いて仕上げた ( 6 ) が出現する新石器 時代とに分けられる。
かつて日本列島には旧石器時代の文化は存在しないと考えられていた。 しかし, 1946 年に相沢忠洋が関東ローム層から石器を発見し, 1949年に学術調査して群馬県 (7) 遺跡が確認されて以降, 旧石器の発見があいついだ。
4 旧石器時代の人びとは, (8)と植物性食料を採取する生活を送っていた。 (8)に
はナイフ形石器や ( 9 )などを棒の先端につけた石槍を用いた。
6 完新世になると, 日本列島に住む人びとも大きく変わり ( 10 ) 文化がおこる。 (10)文化の時代の人びとは, 狩猟や採取の他に、栽培や ( 11 ) などもおこなった。 漁労が発達した証拠として,今も各地に貝類の堆積層である (12) が残る。 日本で近 代科学としての考古学は, 1877年, アメリカ人の ( 13 ) が東京都にある (14)を発掘 調査したことに始まる。
釣針 銛・ やすなどの ( 15 )とともに石錘 土錘がみられるので,網を使用した漁法 もさかんにおこなわれていたことを示している。
8 縄文人たちは地面を掘りくほめ、 その上に屋根をかけた ( 16 )を営んだ。 青森県の
(17)遺跡からは, 集合住居と考えられる大型の(16)が発見されている。
9 長野県和田峠などで産出される (18) といった石器の原材料や, ひすいなどの分布か
ら広範囲での交易がおこなわれていたことがわかる。
10 縄文人たちは、あらゆる自然物や自然現象に霊威が存在する
という考えをもっ
ていた。これを示す遺物には,石棒や女性をかたどった(20)などがある。
1 紀元前4世紀初め頃, 西日本に ( 21 ) 農耕を基礎とする弥生文化が成立し, やがて東 日本にも広まった。 紀元前4世紀から紀元後3世紀の時期を弥生時代と呼んでいる。 12 佐賀県菜畑遺跡 福岡県 (22)遺跡など,西日本各地で縄文時代晩期の水田跡が発見
され, 水稲農耕が始まっていたことが明らかにされている。
10 弥生文化は水稲農耕を基礎とし, 高温で焼かれた薄手の ( 23 ), 銅と錫の合金でつく られた ( 24 ), 木材を伐採し加工するための石斧類, 穂摘み用具の(25)にとってか わった鉄鎌などの鉄器, 機織り技術などをともなう新文化である。
LlamaParse
# スピード・チェック
## 1 日本文化のあけぼの
### 1 文化の始まり(旧石器・縄文・弥生文化)
1. 約1万年前まで続いた(1)は氷河時代にも呼ばれ、この時代の化石人骨はいくつか発見されている。旧石器人(2)、縄文人(3)、弥生人(4)人や山下町縄文人など、いずれも新人段階のものとされている。
2. 人類がまだ金属器を知らなかった石器時代は、基本的には大いだけの(5)のみを用いる(6)時代と、完新世以降、石器を磨いて仕上げた(7)が出現する新石器時代とに分けられる。
3. かつて日本列島には旧石器時代の文化は存在しないと考えられていた。しかし、1946年に相沢忠洋が関東ローム層から石器を発見し、1949年に学術調査して群馬県(7)遺跡が確認されて以降、旧石器の発見があいついた。
4. 旧石器時代の人びとは、(8)と植物性食料を採取する生活を送っていた。(8)にはナイフ形石器や(9)などを核の先端につけた石槍を用いた。
5. 完新世になると、日本列島に住む人びとも大きく変わり、(10)文化が始まる。
6. (10)文化時代の人びとは、狩猟や採取の他に、栽培や(11)などもおこなった。
7. 漁労が発達した遺跡として、今や名高に貝塚の堆積層である(12)があげられる。近代科学としての考古学は、1877年、アメリカ人の(13)が東京都にある(14)を発掘したことに始まる。
8. 釣針・銛・やすなどの(15)とともに石斧・土錘がみられるので、網を使用した漁法もさかんだったことを示している。
9. 縄文人たちは鹿面を彫りくぼめ、その上に黒漆をかけた(16)を作った。青森県の(17)遺跡からは、集合住居と考えられる大型の(18)が発見されている。
10. 長野県相田峠などで産出される(19)といった石器の原材料が、ひろいネットワークで流通していたことが分かる。
11. 縄文人たちは、あらゆる自然物や自然現象に霊威が存在する(20)という考えをもっていた。これを示す遺物には、石棒や女性をかたどった(21)などがある。
12. 紀元前4世紀初め頃、西日本に(22)農耕を基盤とする弥生文化が成立し、やがて東日本にも広まった。紀元前4世紀から紀元後3世紀の時期を弥生時代と呼ぶ。
13. 佐賀県菜畑遺跡、福岡県(23)遺跡など、西日本各地で縄文時代晩期の水田跡が発見され、水稲農耕が始まっていたことが明らかにされている。
14. 弥生文化は水稲農耕を基盤とし、高温で焼かれた薄手の(24)、銅と錫の合金でつくられた(25)、木材を割り加工するための石斧、穂摘み用具の(26)などがあった。青銅器などの祭器、機織り技術なども伴なう新文化である。
Googleドキュメントに比較していい点を挙げると
フォーマットが統一され、適切なスペース行など見た目が非常に良い。
章、セクションが #, ##などできちんとレベル分けされている。
問題文の採番がきちんとされている。ほぼ完ぺき。
ただし、LlamaParseも完全には信用できず、一部数はすくないですが、意味不明の変換がされています。
例えば、以下の部分は Googleドュメントではきちんと「地面」としてくれていますが、LlamaParseでは鹿面と意味不明です。
以上結果となりましたが、今回のようにスキャンした複雑なドキュメントをOCRにかけたい場合には LlamaParseとGoogleドキュメントを併用し、最後のひと手間として、LlamaParseで抽出したテキストをベースに Googleドキュメントの抽出結果でダブルチェック・補正をAIで実施するのがいいと思います。
その際、それなりの文字数を扱うことになるため、無料版での文字数制限の問題がでてきます。
その場合に利用できるのか以前こちらの記事でご紹介した自作チャットサイトです。
私が自分で活用するために作成したサイトですが、こちらをご利用いただくことも結構ですし、また、自分専用のサイトを作ってみようというのもありです。
最後に
この記事はお気に入りいただけましたでしょうか?
内容お役にたちましたらうれしく思います。
サポート、応援いただけましたら幸いです。