みを(くずし字判読アプリ)レビュー
くずし字アプリが、少しずつリリースされています。無料で使えて、使いやすくなっているけど、実用に耐えるものなのかは使ってみないとわかりません。ということで、手近な影印本(古写本を普及用に撮影したもの)を使って、アプリがどのような特徴を持つのか、2021年に試したものの、テキストを保存したまま放置していました。そうしたら、2022年にバージョンアップが行われていて、何の気無しにもう一度画像データを読み込んだら機能が向上していました。どこまで機能が向上したのかも見ながら、くずし字アプリがどこまで信用できるか見ていきましょう。
(凡例)
判読したのは『徒然草』の正徹本(現存最古の写本)、烏丸本(江戸時代に普及した版本のテキストの祖本)の影印本。書写年代は正徹本の方が古く、正徹本は室町期、烏丸本は江戸時代初期の書写とされる。
・『徒然草 正徹自筆本 上』 笠間書院 2004.6(正徹本)
・『徒然草 烏丸本 上』 勉誠社 1978.6(烏丸本)
(インターネットで、早稲田大学図書館所蔵の烏丸本の影印と翻刻が参照できる)
判読に使用したのは「みを」Ver.1.0、1.1。人力で読んだテキストと対照比較して、その性能を確かめた。
翻刻は上から
序段(人力)
序段(みを1.0)
序段(みを1.1)
の順に対照比較できるように配置した。
(翻刻)
正徹本
つれ〱なるまゝに
つれ〱なるまゝに
つれ〱なるまゝに
日くらしすゝりにむかひて
日くらしすゝわにびひ
日くらしすゝりにむかひて
心にうつりゆくよしなしことを
心に つりゆくよしなししほ
心にうつりゆくよしなしヿ を
そこはかとなくかきつくれは
うことなくいきつ れは
そこはかとなくかきつゝれは
あやしうこそ物くるおしけれ
あやしうう物ねくるゆし空れ
あやしうこそ物くるおしけれ
烏丸本
つれ〱なるまゝに
津れ〱さるまゝ口
つれ〱なるまゝ口
日くらしすゞりにむかひて
日たらしすのらりにむかひて
白くらしす りにむかひて
心にうつりゆくよしなし事を
いにうへりゆくよしなし平ほ
心に くりゆくよしなし事を
そこわかとなく書つくれば
そこはかとみなくこつくれは
そこわよとなく書つくれば
あやしうこそものぐるおしけれ
あやしうこうものぐにおしけれ
あやしうここそものぐるおしけら
正徹本について
対照比較すると、「みを」の精度が格段に向上したことがうかがえる。正徹本は「みを」Ver.1.1の判読の信頼度は高い。しかし、十全とは言えず、「こと」を罫線と判断したことが印象的だ。字と線の区別がまだ難しいようで、どんな意図のある線かを判別するのは、人間がしなければならない。(追記・ヿはコトの合略仮名を表現しているのかもしれない。だとすると、信頼性はますます高くなる)
烏丸本について
烏丸本は字に癖のある本だと一見感じる。アプリ判読においても同様の特徴が出ていて、冒頭「ままに」をバージョンを重ねても「まま口」と誤読するのは、実際に見ると字母「仁」の草書「に」を漢字の「口」に見える書き方をしているためと思われる。こういうところは、人力でくせ字を読み取って補正するしかない。最後の「ここそ」は人の目で見ると「こそ」と書いてあるのだけれど、機械で読むと「こ」が二本に見えるらしい。学習データが多すぎるからこそ起こりそうな感じがした。その他、「う」や「ゞ(〻)」のようなうねった字を処理するのに苦労している印象。
(総評)
「みを」はVer.1.1になって読取精度は格段に向上したが、まだまだ苦手分野もある。活字のような一字単位での精度は高いけど、「え?ここも字の一部なんですか?」みたいな連綿体の処理は人間が訓練した方が良さそうだ。今(2023年1月)の時点のAIは、俳句にしてもイラストレーションにしても、そしてくずし字の判読にしても、完璧に自律して仕事ができるものではなく、得意分野と苦手分野が分かれている。製作者も述べているように、人間の能力の代用ではなく、人間の仕事の補助ツールとして考えた方が良いようだ。
今のAIは、平均的なイメージの調査、学習は主導する人間のセンスに左右されるし、使い方もAIの長所短所をきちんと押さえておかないとがっかりしてしまうだろう。
この記事が気に入ったらサポートをしてみませんか?