OCRでGo!　三つの工程

2020年10月26日 00:40

OCRの流れ

　OCRと言いつつ実態は所謂『自炊』によるテキスト起こしなのだが、検索性を考慮してこのままでいくことにする。

　大まかに分類すれば以下の三工程に分けられる。

1.原稿となる文庫/新書をスキャナーにかけて画像データを得る
2.画像データをOCRプログラムにかけてテキストデータを得る
3.テキストデータを校正して完品に仕上げる

　とりあえず真釘くんたちを例に、それぞれの工程に必要な装備を並べてみよう。

　オフィス用の複合機にはスキャン機能があるので、まずこれを使ってみよう。

　Linuxはオープンソースだからフリーで使えるだけでなく、WindowsのようにPC一台につきライセンスが必要ということがない（そういうことにしておいて下さい）ので、

a.外付けのドライブにインストールしたOSから起動できる
b.OSごとコピーした環境を複数同時に使える
c.画面のフォントがキレイ
d.シェルスクリプトという自動実行環境が標準で使える

　OCRプログラムも、オフラインでも使えるオープンソースソフトウェアというと、やはりHPが始めてgoogleが発展させた古兵のTesseract-OCRになろう。Windows版もLinux版もあるので問題ない。

　LinuxにはWindows用アプリケーションをLinux上で動かすためのWineという都合の良いプログラムがあるので、Linux用のみならずWindows用のツールもバシバシ使える。