OCRでGo! 三つの工程
OCRの流れ
OCRと言いつつ実態は所謂『自炊』によるテキスト起こしなのだが、検索性を考慮してこのままでいくことにする。
大まかに分類すれば以下の三工程に分けられる。
1.原稿となる文庫/新書をスキャナーにかけて画像データを得る
2.画像データをOCRプログラムにかけてテキストデータを得る
3.テキストデータを校正して完品に仕上げる
とりあえず真釘くんたちを例に、それぞれの工程に必要な装備を並べてみよう。
1.原稿をスキャンするスキャナー
オフィス用の複合機にはスキャン機能があるので、まずこれを使ってみよう。
2.OCRプログラムとそれを走らせるプラットフォーム
Linuxはオープンソースだからフリーで使えるだけでなく、WindowsのようにPC一台につきライセンスが必要ということがない(そういうことにしておいて下さい)ので、
a.外付けのドライブにインストールしたOSから起動できる
b.OSごとコピーした環境を複数同時に使える
c.画面のフォントがキレイ
d.シェルスクリプトという自動実行環境が標準で使える
OCRプログラムも、オフラインでも使えるオープンソースソフトウェアというと、やはりHPが始めてgoogleが発展させた古兵のTesseract-OCRになろう。Windows版もLinux版もあるので問題ない。
3.テキストの校正ツール
LinuxにはWindows用アプリケーションをLinux上で動かすためのWineという都合の良いプログラムがあるので、Linux用のみならずWindows用のツールもバシバシ使える。