年賀状用の住所録起こし
この夏の暑い時期に季節外れな話題だが申し訳ない。
親父の年賀状用の住所録が、今年パソコンを変えたときにバックアップしてあると思い込んでいたそうだが、探しても見つからないので、ハードコピーとして奇跡的に残してあった紙の住所録リストから起こすことにした。
その作業を何故か俺が引き受けることになった。
ちなみに、ハードコピー以外にも、以前の住所録データを見つけたが、2世代前のPCからの移行時にバックアップしたもので、古すぎて使い物にならないそうだ。
住所録は、名前と郵便番号と住所を一式としてそれが150人分ほどある。一からタイプしてもよいのだが(親父はそうしようとした)、ちょっと時間と労力を要するので、複合機のOCR機能を活用することにした。
うちにあったプリンタは買い替えなどもあって、スキャナが使えるのはだいぶ前に買ったBrotherの複合機だけだ。この複合機はプリンタの部分がぶっ壊れており印刷はできないが、スキャンの機能だけは生きているのでここずっと俺の部屋に寝かせておいていたが、ちょっと前に弟が使いたいというので渡したというものである。
まずはドライバのインストールから始めた。そこからかよ、って俺も思ったが。公式ホームページによるとWindows 8の64bitは公式には非対応で、Windowsの標準ドライバを使えということだった。それではイメージ保存はできるがOCRは使えない。そういうことなのでブラウザに付属していたソフトウェアCDを引っ張り出してきて、「Brother OCR」というOCR用のアプリケーションを入れた。Windows 8でも問題なくインストールできたのでよかった。しかしブラウザのスキャナボタンからOCRを指定して直接OCRできるようにはならなかったため、いったんイメージとしてスキャンした後、当のアプリケーションで画像を読み込ませ、OCRを掛けることにした。幸い、画像に選択範囲を設定して部分的にOCRするという機能があったため、これを利用して名前だけ、郵便番号だけ、というふうにOCRを掛けることができた。
作業の工程としては、まず住所録を画像としてスキャンした。この画像を1枚ずつBrother OCRで読み込み、名前、郵便番号、住所を項目ごとに一括選択し、文字認識させる。するとテキストがアウトプットされるので、これをSublime Textにペーストし、Ctrl+Hで後述する間違いやすい文字を正しく置換する。また、余計な改行が挟まれているため、\n\n を \n に置換することによって整形する。そして、文字を拡大してリストと比較しながら認識結果を確認・修正する。問題がなくなったものはExcelに貼り付け、最終的にCSVで保存する。この作業によって、一から入力するよりも高速に住所録をデータ化することができた。
さて、OCRの精度だが、非常に高精度といって良いだろう。元が印刷された活字なのでしっかり認識できているのかもしれないが、ほぼ9割5分以上は完全に認識してくれる。
認識できにくい文字としては、「川」が「ノ||」のようになったり、「一」が「-」になったり、「1」が「l」、「4」が何故か「蔓」になったりした。複雑な字よりは比較的簡単な字のほうが苦手のようである。また、渡邉姓が2人いたが、どちらも「渡邊」になっていた。よく見ると漢字が違う、危うく見落とすところだった。
それ以外に面倒だった点としては、住所録リストは表であり、罫線で囲まれているため、その線の部分を文字と誤認識して「・ ・ ― ― ――」というようなものが出てしまったが、こういう行はテキストエディタが1行選択して削除すればよかった。
以上、住所録150人分の書き起こしなど、なかなか面倒な作業だと思ったが、意外に苦労せず作業することができた。おそらくすべて入力していたら結構な疲労になっただろう。また、古い複合機も活用できてよかった。プリンタを買い替えた際に処分するという選択肢もあったが、スキャナだけは生きているので取っておいたのが助かった。まあ、皆さんには、大事なデータはちゃんとバックアップされていることを確認するということを、強くお勧めしたい次第である。