AIはくずし字が読めるのか?古今集十本による可読率ランキング
これは十本の『古今和歌集』仮名序の冒頭をくずし字OCRにかけて、どの程度読めているのかをランキング形式で確認したものです。
近年はAIの技術も進んでいるので、巷では、くずし字を読む時代が終わるとも言われています。聞くところによると、くずし字AIの可読率は95%とのことで、凄そうですよね。
しかし、実際はどうなのでしょうか。95%とはどのぐらい読めているのでしょうか。AIが人間の代わりにくずし字を読んでくれて、古写本の全文検索ができる日を夢見てみたりするわけですが、数字だけだと具体的なことがわかりません。
具体的にどうなのか、検討しているものを見つけられなかったので、実際に自分でやってみようというわけです。
使用したくずし字OCRは、CODH公開のKuroNetです。これはIIIF対応画像でないと読み込めないという制限があり、ログインも必要なものです。
最近、AIくずし字認識アプリ「みを(miwo)」が公開されたので、手軽に自分でその精度を確認することができるようになりました。
アプリが出たことで皆さん自分で試し、その結果をTwitterに投稿しているので、私がせっせと確認して用意していたこのランキングは、あんまり意味を持たなくなったんじゃないかと思うわけですが、折角作ったので、こうしてnoteに書いています。
IIIFのマニフェスト付きで、かつ利用が自由な『古今和歌集』の伝本を十本用意しました。それぞれを同じ範囲までAIに読ませて、どのくらい読めているのか順位付けを行います。
●算出方法
伝本はそれぞれ漢字の部分、平仮名の部分が異なり、文字数が一定ではないので、%で算出します。
AIがテキスト化したものから、読んでいない部分を■、読み間違えている、または無い文字を読んでいる場合は「」、文字を二重以上で認識している場合は《》で示しました。可読数を見るわけですが、余分に文字を読んでいる場合は、これも誤った判読なので、減点方式をとりました。
AIは同じ画像でも、毎回同じ結果を出すわけではありません。読めていなかった文字が、二回目は読めていたり、読めていた文字が、三回目は読めていなかったりと、結果には若干のズレがあります。
本来ならば、これも平均をとるべきなのですが、今回は省略しました。
●比較伝本
書写年代順に並べておきました。
国立国会図書館デジタルコレクションから四本、
国文研所蔵CODH公開のものから四本、
京都大学附属図書館デジタルアーカイブから二本の計十本です。
時代も書きぶりも様相も様々な伝本です。
●読む範囲
今回は『古今和歌集』仮名序の冒頭によって比較を行います。
平均192文字の有名な紀貫之の序文です。本来はまだまだ文章が続きますが、切が良いのでこの範囲とします。
95%は読めるということで、良く読めていた第一位から順に見ていきましょう。
●AI可読率ランキング
第1位 可読率96%
文明八年写本 京都大学附属図書館
栄えある1位は、可読率96%の文明八年写本です。くずし字AIが95%の可読率と言われるなか、写本で1%越えてきました。
認識できていないのが4文字、読み間違えているのが2文字でした。「伊」など、はっきり書かれていることが返って漢字で読んでしまうというAIらしいミスがあります。また虫損によって判断を誤ったかとおもわれる「和」など、少し直してやれば問題がありません。
「八」が埋もれて読めていない他、「良」も上手く認識できなかったようです。似た形の「之」は良く読めているのですが、「可」の範囲とつながっていて、難しかったのでしょう。踊り字と誤ってもよさそうですが、そういう間違いはしないんですね。「己」が完全に抜け落ちているのは謎です。「止」と近すぎたのが原因でしょうか。何にしても、惜しいところまで来ています。
第2位 可読率95%
安永九年板本「古今和歌集. [1]」国立国会図書館デジタルコレクション
第2位、可読率95%の安永九年板本です。
認識できていないのが2文字。読み間違いをしているのが6文字でした。ただし、読み間違えていると言っても、「八」を字母とする「は」の仮名を片仮名でおこし、川を字母とする「つ」を片仮名でおこすいった、惜しいミスであると言えます。これを翻刻ミスとするのは酷かと思う程、ある意味間違ってはいません。調子が良ければ一位がとれたかもしれない伝本です。
8行目末尾の「計」は、筆脈というのでしょうか、筆の動きで繋がった線を、濁点と認識してしまったようです。
「己止」は良く表れ、後に合字化されるものですが、くっついているため「己」と認識できなかったようです。一文字づつ認識するだけでなく、連綿でよくセットになっているものは、固まりで学習させた方が、可読率は挙がりそうですね。
第3位 可読率93%
正保四年板本「二十一代集 400巻. [1]」国立国会図書館デジタルコレクション
第3位は可読率93%の正保四年板本です。
認識できていないのが4文字。読み間違いをしているのが8文字でした。「世中」が狂っていますが、何度か読み直しさせてみると、正しく読めているときもあったので、調子が良ければ一位も狙えたのではないでしょうか。
「衣」「者」、「与」「三」は崩しが似ているので読み間違えています。
5行目末尾の「い」は、どうも一画目が落ちています。そのためAIは読めていません。こうした印刷のミスを文脈から補うのは、人間の仕事と言ったところでしょうか。
第4位 可読率92%
正保四年板本夥書入「古今和歌集 20巻. [1]」国立国会図書館デジタルコレクション
第4位は可読率92%の正保四年板本でした。
これは第3位と同じ版本なのですが、夥しい書入が全面にあります。末尾によると明治二十八年に書き込まれたようです。私の予想では、これはかなり順位が低いと思っていたのですが、書入を悉く認識せず、版本の文字を上手く拾い上げており、殆ど3位と差がありません。
AIの認識精度が上がると、かえって判読ミスが増えそうな感じがします。
1行目「天」、5行目「支」、9行目「無」は3位と同じく読めていません。
第5位 可読率91%
永正七年写本 国文研初雁 ROIS-DS CODH
第5位は可読率91%の永正七年写本です。
読めていないのが9文字、間違えているのが7文字でした。
2、3行目の「己止」はやはり読めていません。さらに7、8行目の「毛」も読めていません。「毛」はここ以外に九例ありますが、読めていない二例は特徴的な形をしています。この字形はデータがなかったのでしょうか。
第6位 可読率88%
元応元年写本 国文研貴重書 ROIS-DS CODH
第6位は可読率88%の元応元年写本です。
90%を下回りましたが、まだ読めている方ではないかと思うのは、評価が甘いでしょうか。
2行目の「葉」を「り」としており、AIは「梨」と読んだようです。
あまり普段見ない気がするのですが、この『古今和歌集』十本を見ていて、「け」の字母に「気」を用いることが多いなという印象があります。十本全体の使用数は以下の通りです。
「計」22、「介」19、「気」19、「遣」7、「希」4
普段あまり見ないので目に付いただけかもしれません。ただ、AIが意外とこの「気」に苦戦しているのです。3、9行目では「気」と漢字におこし、6行目は「重」、9行目は「乗」になっています。他の写本でも正しく読めていないことが多いです。
この写本は6行目の「宇」や8行目の「衣」など、読ませるにはかなり厳しい字形があるのも、可読率が低い原因でしょう。
第7位 可読率84%
寛文八年写本 京都大学附属図書館
第7位は、可読率84%の寛文八年写本です。
2行目は「古止」なので読めているのですが、3行目の「己止」はやっぱり読めていません。
2行目、「世中にある人」ですが、この写本は「に」が落ちています。「中」の末から「あ」の一画目に接続していますが、AIはこのクッと曲がったところを見落として、「め」と読んでしまっています。連綿は切れ目の位置を間違えると途端に読めなくなるので、判断は柔軟に行わないとドツボにハマります。AIではそういう、上を少し含む場合と、含まない場合とで判読に差がでるとかいう、文字を認識する範囲と結果に関する学習って、できるものなのでしょうか。
私は機械学習については全くの素人なのですが、文脈判断が行えるようになると、認識範囲の違いから生じる読み取り結果の差に、文脈を合わせて最終的な判断を下すといったことも、可能になるのではないかと想像しています。
AIは文脈が理解できないという話を聞いたことがありますが、「ELYZA DIGEST」(https://www.digest.elyza.ai/)も出て来ましたし、一定程度は判断できるようになると思います。
第8位 可読率76%
永正十六年写本 国文研貴重書 ROIS-DS CODH
第8位は可読率76%の永正十六年写本です。
定家様のぼたっとした文字で、太いところと細いところの差が激しいのでAIを苦しめたことでしょう。読んでいない文字が26、読み間違いをしているのが18文字もありました。
一文字目から読めていないのがズッコケポイントですね。二文字づつ抜けている箇所が四箇所ありますが、何か傾向があるのでしょうか。よくわかりません。
「己止」が悉く読めていません。「利」もさっぱり読めていません。検討範囲の中では最後の利以外空白です。「奈」もかなりボロボロです。字形としては二種類見えていますが、寺、我、得と……。なるほど言われてみれば確かに似てますね!経験的に蓄積されてきた誤りやすい字形ですが、AIによってデータ化すると様々な誤写の分析に仕えそうです。
癖の強い写本であることは確かです。
第9位 可読率74%
尊経閣叢刊「古今和歌集 : 20巻. [巻第1~第10]」国立国会図書館デジタルコレクション
第9位は可読率74%の尊経閣叢刊本です。
一文字一文字余白が大きく、丁寧に書かれていますが、影印のため紙面が黒ずみ、ノイズの多さがAIを苦しめたことでしょう。
読んでいない文字が33、読み間違えているのが9文字、二重三重に読んでいる文字が10もありました。
どうも踊り字を読むのが苦手なようです。読んでいない文字は、文字として認識できなかったからなのでしょうか、人間であれば読めずとも字があることぐらいはわかります。
「之」など簡単に読めそうなものも読めていません。
黒ずみの濃いところでも、ちゃんと読めているものも多いので、判読への影響はよくわかりません。
二重三重に読んでいる文字が多いところからすると、余白が大きいのは、却って読みにくいのかもしれません。
第10位 可読率59%
文明三年写本 国文研貴重書 ROIS-DS CODH
十本中、最もAIが読めていなかった第10位は可読率59%の文明三年写本です。
極細の線がひょろひょろと流れ、紙面全体に濃淡が表れています。この細い線を文字だと認識するのは、かなり難しかったと思います。
読んでいない文字が51、読み間違えている文字が25ありました。読んでいない上に読み間違えているので、冒頭から「やまうまた人のろをねして」となっており、まったく意味が分かりません。AIの判読をそのまま活字で書き出してしまったら、わけがわからなくなります。これ程までに読めていないのは、線の細さが原因であろうと思います。
2行目の「流」など、さんずいが細すぎて見えません。私も一見してわからず、わざわざ拡大して確認しました。逆にここまでくると、9行目の「能」など、良く読めたなぁと関心してしまいます。これが読めたなら他のも読めたのでは?という気にもなるので、文字として認識するハードルはあまり高くないのかもしれません。データさへ充実すれば、挽回も可能でしょう。
まとめ
以上、『古今和歌集』十本の比較検討結果でした。
上位はいずれもしっかりAIが読んでくれているので、そのままでも十分内容を理解することができ、読めていない部分を補うのも容易です。対して下位は特徴的な字形や紙面となっており、データが少ないのか、まだまだAIには任せていられない状況となっています。
どちらにしても、AIの判読が正しいかは確認しないとわかりませんので、結局一回全部人間が読まないとだめなんですよね。AIが代わりに読んでくれると言うより、まだまだ初歩的な補助道具といった印象です。一文字づつやれば、精度はあがると思いますが、全文検索は遠い夢です。
100%読めるようになることはなく、頭打ちはあるそうですが、良く読める本、あまり読めない本の差が縮まると、まとめて扱いやすくなるので、今後に期待したいと思います。
より多くの伝本が95%前後まで読めるようになれば、全文読ませた諸本を別のソフトで比較させることができます。一文字二文字の細かいミスは無視して、数行に渡って異なっている場合など、特徴的な本文の炙り出しができ、奥書ではなく本文による諸本分類に一役買ってくれそうです。それこそ『源氏物語』の古注釈書など、増補された注記を一つ一つ人間が確認するのではなく、翻刻から比較までコンピュータにやらせることも可能になるでしょう。
第4位のような、書入本は、その書入に価値がありますが、現状では殆ど認識すらしていません。この辺りについても、今後のさらなる発展に、注目していきたいと思います。
「己止」が悉く読めていなかったことについては、Twitter上で説明がありました。
https://twitter.com/rois_codh/status/1432337620143538176
余談
普段こんなに写本を並べて、しかも字母で翻刻することなんてないので、比較して眺めていました。字母が全く同じ本というはないんですね。冒頭から少しずつ違っているのが面白いです。ただ一定の傾向もあるようで、結構共通部分もあります。字母の一致率で分類って、やったら意味あるんですかね。聞いたことないんですけど。
動画も作ったので、時間があればご視聴ください。