入力作業の無駄話
記事分離以前の記述
標題:試運転『俺の自叙伝』
AmazonでKindle版の『俺の自叙伝』を購入した。395円だ。安い。わくわくしながら開いてみた。なんか汚い画像ファイルだった。ガッカリだ。あんたにゃ本当にガッカリだ。入力情報を探す。国立国会図書館から持って来たらしい。これだ。
国立国会図書館デジタル>大泉黒石『俺の自叙伝』
Kindle版のは余分な枠が除去され、汚れも除去され、読みやすく加工されている。それなりに手間暇はかけてあるようだ。横流しの阿漕な商売という訳でもないらしい。
でも。それでも。何だか釈然としない。イライラする。腹が立つのだ。なぜなら。俺は書籍も持っているからだ。『現代ユウモア全集10 大泉黒石集 当世浮世大学』というやつ。ここに同名タイトル収録されている。今さら画像データなどいらないのだ。
なぜKindle版を購入したのか。データ化されたテキストが欲しい。コピー&ペーストが出来る状態にしたい。これが目的だったのだ。それがまさかの画像データとは。腹立たしい。本当に腹立たしい。何かに八つ当たりしたいぐらい腹立たしい。という訳で、俺がテキストデータ化する。(腹いせに)
<目的>
・腹いs・・・もとい、大正期の偉大な文学の共有化。
・黒石の文体が好きだ。胡散臭いとか言う奴は阿呆だ。これこそ文学だ。
・OCR『読み取り革命16』の試運転
・旧字旧仮名コンバータ(MTO)の性能確認
<MTOの性能>
・様々な旧字を拾ってくる。素晴らしい。
・一部漢字にヤリ過ぎ感が。「閒」「窻」「禦」「竝」
<目標>
・一日三ページのペースでのんびりコツコツ励む
・この記事下方にMod(追加)してゆく
・途中で飽きたら泣きながら詫びを入れる(やめる)
――――――――――――――――――――――――――――――――――
# ここに入力作業の結果を載せていた (P102まで)
# 独立記事として引っ越し:大泉黒石『俺の自叙傅』
――――――――――――――――――――――――――――――――――
記事分離以後の記述
標題:入力作業の無駄話
2021/02/13から02/16までの4日間、入力作業を行った。Kindle版の書籍をパソコン画面に表示させ、スクリーンキャプチャで画像として保存し、OCRソフト『読み取り革命16』に読み込ませて、テキストデータ化。『読み取り革命16』の精度は悪くないのだが、やはり旧字旧仮名は厳しい。そしてそれを手入力で修正するのも厳しい。旧字を拾ってくるのに一苦労だ。更に目検でのチェックも厳しい。一字一句突き合わせて行くのだが、何度読んでもその度毎に取りこぼしを見つけてしまう。精度が心もとない上に、作業効率が悪い。何度、繰り返し読んだことか。4日間の結果は、80ページ程度であった。1日20頁のペース。279頁あるから、残り200頁。10日間で完成の予定となる。
ちょっと待て。プライベートの時間全振りなんだぜ。睡眠時間を削り、毎週観ているテレビドラマを諦め、その他一切の私的時間を放棄し。良く言えば禁欲的な営みであり、悪く言えば生活破綻の廃人である。負荷が高い。高過ぎるのだ。今週は、辻潤著作集と辻潤著全集の月報を取り込む予定だったのに。メインと定めたものが手つかずとなり、ツイデと思っていたものに全ての時間を奪われる。おかしい。何かがおかしい。なんでこうなった?
嫌気が挿す。気晴らしにAmazonのページに行く。恨めしく『俺の自叙伝』を眺める。商品説明には本文が活字で書かれているじゃないか。これが勘違いの元だったか。ふと「試し読み」があるのに気づく。しまった。これで内容を確認できたのか。画像データと知っていたら購入しなかったのに。
「試し読み」で中身が確認できるのか。『人間開業』はどうなのであろうか。「試し読み」で中身を確認してみる。おや? こちらは新字新仮名のきれいな活字だぞ。もしかして?
という訳で、『俺の自叙伝』の入力作業は一時中断。今後の方向性を明示しておこう。
・『俺の自叙伝』前編まで公開
・『人間開業』を同時公開
・『俺の自叙伝』後編を入力続行