手書き原稿のOCR | DH入門編その4

ヒューマニティーズ(人文学)をやる場合、手書き原稿と付き合うことになります。日本語だと崩し字、欧米系言語だと筆記体の解読ができなければなりません。

崩し字を読んでくれるソフトは以下のサイトで紹介されています。

欧米系言語の筆記体を読んでくれるAIとしては、Transkribusが有名です。

ロシア語の波打つような筆記体には対応していないようですが、これで英独仏のほか、チェコ語やフィンランド語、ラテン語なども解読してくれるので、人が一から解読するよりも手間が省けます。

こうしてデジタル化(機械可読化)したテキストを、XMLで構造化し、XSLTで見せる、というのがデジタルヒューマニティーズの手法であり、その手法を通して見えてくるものを探求するのがデジタルヒューマニティーズの目標と言えます。

いいなと思ったら応援しよう!