OCRでGo! ~こうして私はTesseractした~
スケッチ1 〜とある零細出版社の編集部〜
「プロビー、よろこべ、仕事だ」
「なんです、プロビーって? 殿井さん」
「トニーって呼べよ。フランコ書房(仮)って憶えてるか?」
「ああ、大昔ありましたね。いにしえの富士見ロマン文庫全盛期に二匹目のドジョウ目当てで翻訳ポルノ小説に手を出してすぐ消えた版元」
「正解。そのフの字跡地から版権だか出版権を我が出版社が取得した」
「よくそんなことできましたね。原著者の他に翻訳者からもOKが必要なのに。大抵偽名でしょ?」
「まあ蛇の道は何とかって奴だ。問題は古すぎて版下や原稿どころか黄ばんだ文庫本しかない」
「嫌な予感しかしないんですが……」
「画像からテキストに起こす技術があるよな、OCRとかっての」
「まあ今は相当に優秀になってますからね、Google Cloud Visionとか」
「残念ながら今回それは使えんぞ。外部に漏れちゃマズイんでオフラインで使えるものでないと」
「……じゃ、じゃあ更新が絶えて久しい民生用のOCRを買えと?」
「予算は豪華だぞ。サポートの切れた旧OSのPC一台と、編集部の複合機が使い放題だ!」
「つまりフリーのOCRソフトを捜してなんとかしろということですね……」
「さすが水戸工科大学を優秀な成績で卒業した真釘君だな。その通りだ」
「ベトコンだってもうちょっとマシな装備で戦いますよ」
「まあ、そういうことなんで一つ頼む。いてッ、あ、ボス!」
「元々お前に振られた仕事だろうが、日乃蔵。二人でやるんだ」
(フィクションです)
配役:
殿井日乃蔵(cv:森宮 隆)
真釘仁志(cv:会一太郎)
木伏徹郎(cv:井上和彦)
これは思考実験である
あなたが趣味で紙の文字本をテキスト化するのなら、別に停めはしない。好きなやり方で思う存分人生を消耗してほしい。
しかしこのスケッチの二人のように、ろくな予算もないのにお仕事で仕方なく文庫や新書のOCRをやる羽目になったとしたら、なるべく少ない手間でどこまでやれるものだろうか?
素人のささやかな思考実験にお付き合い願いたい。