
NDL古典籍OCR-Liteの公開
NDL古典籍OCR-Liteの公開 - つみかさね
https://3yokohama.hatenablog.jp/entry/2024/11/27/202628
古文書を読むことが出来るソフトウェアとして「NDL古典籍OCR-Lite」というのが公開された。研究機関では「NDL古典籍OCR Ver3.0」が実用化されているが、普通の人は使えない。またGPUでないと動かないものでした。それを普通のパソコン(ノートパソコンも)のCPUでも動くようにしたLiteバージョンとのこと。
Windows版、Mac版、Linux版が用意されています。Windows版を下記のHPからダウンロード(zipファイル)して、解凍する。フォルダ内に「ndlkotenocr_lite.exe」というのがあるので、それをダブルクリックすると起動できる。全部をc:\においてあるフォルダにしておく、「ndlkotenocr_lite.exe」を送るショートカット(ディスクトップ)を置いてけばいつでも起動が出来る。
スマホ、タブレット用に「古文書カメラ」というアプリがありますが、スマホよりはパソコンの方が操作が楽です。翻訳の精度はかなり良いですよ。勿論修正なしとはいかない。人間がやっぱり見ないと。でも7割程度は間違って居ないような感じです。勿論原稿にもよるので、数をこなして判ることかもしれませんね。
パソコンで出来ると手書き文字で辞書を見たり、古文書辞典で似たような字を探すことも操作が楽に出来ます。スマホは窮屈だったから、このアプリの進化に期待したいと思います。
古典籍資料の写真からテキストデータを抽出できるツール「NDL古典籍OCR-Lite」が11月26日、国会図書館の実験的なサービスを提供する「NDLラボ」の公式「GitHub」サイトで公開された。ライセンスは「CC-BY-4.0」で、ソースコードとWindows/Mac/Linux向けのバイナリが無償でダウンロードできる。
本ツールは国立国会図書館が実験的に開発した「NDL古典籍OCR」を改良し、GPUなしでも利用できるようにしたもの。「NDL古典籍OCR ver.3」と比べると精度が2%程度低下してしまうが、ノートPCなどでも問題なく動作するのが魅力だ。コマンドラインのほかGUIアプリケーションが付属しており、NDLラボでは以下の環境で動作を確認しているとのこと。
「NDL古典籍OCR-Lite」は江戸期以前の和古書、清代以前の漢籍といった古典籍資料に対応しており、デジタル化された画像資料から文章を読み取り、テキストデータとして抽出できる。レイアウト認識、文字列認識、読み順整序の3モジュールを組み合わせており、挿絵のある資料からもテキストの位置と判断し、読み順整序のうえテキストデータを取得可能だ。国立国会図書館が実験的に開発したプログラム(NDL古典籍OCR)です。無料で使うことが出来ます。余談ですが「NDL古典籍OCR-Lite」というネーミングなんとかならないのという感じがしました。「古文書カメラ」も。少し前に「みを」という名前のものもありました。
NDL古典籍OCR-Liteの公開について
https://lab.ndl.go.jp/news/2024/2024-11-26/
国会図書館が古典籍資料からテキスト抽出する軽量OCRツールを公開 ~GPUなしでも動作 - 窓の杜
https://forest.watch.impress.co.jp/docs/news/1642941.html






