AIはくずし字が読めるのか？古今集十本による可読率ランキング

燈露

2021年9月1日 21:39

これは十本の『古今和歌集』仮名序の冒頭をくずし字OCRにかけて、どの程度読めているのかをランキング形式で確認したものです。

近年はAIの技術も進んでいるので、巷では、くずし字を読む時代が終わるとも言われています。聞くところによると、くずし字AIの可読率は95％とのことで、凄そうですよね。

○2021年度日本近世文学会春季大会シンポジウム「デジタル時代の和本リテラシー　古典文学研究と教育の未来」2021年6月12日（土）
https://youtu.be/X03CMIV5SW8

しかし、実際はどうなのでしょうか。95％とはどのぐらい読めているのでしょうか。AIが人間の代わりにくずし字を読んでくれて、古写本の全文検索ができる日を夢見てみたりするわけですが、数字だけだと具体的なことがわかりません。

具体的にどうなのか、検討しているものを見つけられなかったので、実際に自分でやってみようというわけです。

使用したくずし字OCRは、CODH公開のKuroNetです。これはIIIF対応画像でないと読み込めないという制限があり、ログインも必要なものです。

○KuroNet
AIくずし字OCRサービス(ROIS-DS CODH)
http://codh.rois.ac.jp/kuronet/

最近、AIくずし字認識アプリ「みを（miwo）」が公開されたので、手軽に自分でその精度を確認することができるようになりました。

○miwo AIくずし字認識アプリ
http://codh.rois.ac.jp/miwo/

アプリが出たことで皆さん自分で試し、その結果をTwitterに投稿しているので、私がせっせと確認して用意していたこのランキングは、あんまり意味を持たなくなったんじゃないかと思うわけですが、折角作ったので、こうしてnoteに書いています。

IIIFのマニフェスト付きで、かつ利用が自由な『古今和歌集』の伝本を十本用意しました。それぞれを同じ範囲までAIに読ませて、どのくらい読めているのか順位付けを行います。

●算出方法

伝本はそれぞれ漢字の部分、平仮名の部分が異なり、文字数が一定ではないので、％で算出します。

AIがテキスト化したものから、読んでいない部分を■、読み間違えている、または無い文字を読んでいる場合は「」、文字を二重以上で認識している場合は《》で示しました。可読数を見るわけですが、余分に文字を読んでいる場合は、これも誤った判読なので、減点方式をとりました。

・読んでいない■
・読み間違えている。無い文字を読んでいる「」
・二重に認識している《》

AIは同じ画像でも、毎回同じ結果を出すわけではありません。読めていなかった文字が、二回目は読めていたり、読めていた文字が、三回目は読めていなかったりと、結果には若干のズレがあります。
本来ならば、これも平均をとるべきなのですが、今回は省略しました。

●比較伝本

書写年代順に並べておきました。

国立国会図書館デジタルコレクションから四本、
国文研所蔵CODH公開のものから四本、
京都大学附属図書館デジタルアーカイブから二本の計十本です。

●保元二(1157)年写尊経閣叢刊「古今和歌集 : 20巻. [巻第1～第10]」国立国会図書館デジタルコレクション
https://dl.ndl.go.jp/info:ndljp/pid/3439005
●元応元(1319)年写本　国文研貴重書　ROIS-DS CODH
http://codh.rois.ac.jp/pmjt/book/200003052/
●文明三(1471)年写本　国文研貴重書　ROIS-DS CODH
http://codh.rois.ac.jp/pmjt/book/200003051/
●文明八(1476)年写本　京都大学附属図書館
https://rmda.kulib.kyoto-u.ac.jp/item/rb00013497
●永正七(1510)年写本　国文研初雁　ROIS-DS CODH
http://codh.rois.ac.jp/pmjt/book/200003204/
●永正十六(1519)年写本　国文研貴重書　ROIS-DS CODH
http://codh.rois.ac.jp/pmjt/book/200003050/
●正保四(1647)年板本「二十一代集 400巻. [1]」国立国会図書館デジタルコレクション
https://dl.ndl.go.jp/info:ndljp/pid/2579137?tocOpened=1
●正保四(1647)年板本明治二十八年書入本「古今和歌集 20巻. [1]」国立国会図書館デジタルコレクション
https://dl.ndl.go.jp/info:ndljp/pid/2574092?tocOpened=1
●寛文八(1668)年写本　京都大学附属図書館
https://rmda.kulib.kyoto-u.ac.jp/item/rb00013500
●安永九(1780)年板本「古今和歌集. [1]」国立国会図書館デジタルコレ
https://dl.ndl.go.jp/info:ndljp/pid/2578255?tocOpened=1

時代も書きぶりも様相も様々な伝本です。

●読む範囲

今回は『古今和歌集』仮名序の冒頭によって比較を行います。

やまとうたは、人のこゝろをたねとして、よろづのことのはとぞなれりける。よの中にあるひとことわざしげきものなれば、心におもふ事を、みるものきくものにつけていひいだせるなり。はなになくうぐひす、みづにすむかはづのこゑをきけば、いきとしいけるものいづれかうたをよまざりける。ちからをもいれずしてあめつちをうごかし、めに見えぬおにかみをもあはれとおもはせ、をとこをむなのなかをもやはらげ、たけきものゝふのこゝろをもなぐさむるはうたなり。

平均192文字の有名な紀貫之の序文です。本来はまだまだ文章が続きますが、切が良いのでこの範囲とします。

95％は読めるということで、良く読めていた第一位から順に見ていきましょう。

●AI可読率ランキング

第1位　可読率96％
文明八年写本　京都大学附属図書館

【字母翻刻】196文字
也末止宇太八比止乃心遠堂祢止之天与呂川乃
古止能者止曽奈礼利介留世中仁安流人古止和左之
気幾毛能奈禮八心尓於毛不古止越美留物幾久
物尓川希天以比以多世留奈利花尓奈久宇久飛春
三川尓春武可者川乃己恵遠幾計八以幾止之伊
遣流毛能以川連可宇多遠与満左利介流知可良遠
毛以連春之天安免川知遠宇己加之女尓美衣奴
於尓可美遠毛安者礼止於毛者世於止己遠武奈乃
奈可越毛也者良希太気起毛能ゝ婦乃古ゝ呂遠
毛奈久左武類八宇堂奈利

【AI】
やまとうたはひとの心をたねとしてよろつの
ことのはとそなれりける世中にある人こと「い」さし
けきものなれ■心におもふことをみる物きく
物につけていひいたせるなり花になくうくひす
みつにすむかはつのこゑをきけはいきとし「伊」
けるものいつれかうたをよまさりけるちか■を
もいれすしてあめつちをうこかしめにみえぬ
おにかみをもあはれとおもはせおと■をむなの
なかをもやはらけたけきもの■ふのこゝろを
もなくさむるはうたなり

　栄えある1位は、可読率96％の文明八年写本です。くずし字AIが95％の可読率と言われるなか、写本で1％越えてきました。
　認識できていないのが4文字、読み間違えているのが2文字でした。「伊」など、はっきり書かれていることが返って漢字で読んでしまうというAIらしいミスがあります。また虫損によって判断を誤ったかとおもわれる「和」など、少し直してやれば問題がありません。
　「八」が埋もれて読めていない他、「良」も上手く認識できなかったようです。似た形の「之」は良く読めているのですが、「可」の範囲とつながっていて、難しかったのでしょう。踊り字と誤ってもよさそうですが、そういう間違いはしないんですね。「己」が完全に抜け落ちているのは謎です。「止」と近すぎたのが原因でしょうか。何にしても、惜しいところまで来ています。

第2位　可読率95％
安永九年板本「古今和歌集. [1]」国立国会図書館デジタルコレクション

【字母翻刻】183文字
也満登哥八比止乃心遠多年止之天与路川能己止
乃葉止曽奈礼里計留世中尓安留人己止和左志計
起毛乃奈禮者心耳思不事越見留毛乃幾久
物尓川計天以比以多世留也花尓奈久宇久比春水丹
春武可八川乃聲遠幾計者以幾止之以介留毛乃以川連可
哥遠与満左利介留知可良越毛以連須之天
安女川知遠宇己可之女尓美衣奴於尓神遠毛安者
禮止於毛者世遠止己女乃奈可越毛也八良遣多計
幾毛乃ゝ婦乃心遠毛奈久左武留八哥也

【AI】
やまと歌「ハ」ひとの心をたねとしてよろ「ツ」の■と
の葉とぞなれりける世中にある人■とわざしげ
きものなれば心に思ふ事をみるものき「ら」「て」
物につけていひいだせる也花になくうぐひす水に
すむかはづの声をきけばいきとしいけるものいづれか
歌をよまざりけるちからをもいれずして
あめつちをうごかしめにみぬおに神をもあは
れとおもはせをとこ女のなかをもや「ハ」らげた「げ」
きものゝふの心をもなぐさむるは歌也

　第2位、可読率95％の安永九年板本です。
　認識できていないのが2文字。読み間違いをしているのが6文字でした。ただし、読み間違えていると言っても、「八」を字母とする「は」の仮名を片仮名でおこし、川を字母とする「つ」を片仮名でおこすいった、惜しいミスであると言えます。これを翻刻ミスとするのは酷かと思う程、ある意味間違ってはいません。調子が良ければ一位がとれたかもしれない伝本です。
　8行目末尾の「計」は、筆脈というのでしょうか、筆の動きで繋がった線を、濁点と認識してしまったようです。
　「己止」は良く表れ、後に合字化されるものですが、くっついているため「己」と認識できなかったようです。一文字づつ認識するだけでなく、連綿でよくセットになっているものは、固まりで学習させた方が、可読率は挙がりそうですね。

第3位　可読率93％
正保四年板本「二十一代集 400巻. [1]」国立国会図書館デジタルコレクション

【字母翻刻】185文字
也満止宇多八人乃心越堂年止之天与路川乃己止
乃葉止曽奈礼利遣留世中仁安流人己止和左志
介支毛乃奈礼者心尓思不事越見留毛能幾久物
丹川気天以比以多世留奈利花仁奈久宇久比春水丹
春武可八川乃聲越幾計者伊支止之以介流毛能（以）
川礼可歌遠与満左利介留地可良越毛以礼春之天
安女川知越宇己可之女尓見衣怒於尓神遠毛阿者
禮止於毛者勢於止己女能奈可越毛也八良遣太介起
毛能ゝ婦乃心遠毛奈久左無留八哥奈利

【AI】
やまとうたは人の心をたねとし■よろつのこと
の葉とそなれりける世「帯」「串」にある人ことわさし
けきものなれは心に思ふ事をみるものきく物
につ「気」ていひいたせるなり花になくうくひす「上」に
すむかはつの声をきけは「伊」■としいけるもの■
つれか歌を「ミ」はさりける「地」からをもいれすして
あめつちをうこかしめにみ「は」ぬおに神をもあは
れとおもはせおとこ女のなかをもやはらけたけき
ものゝふの心をもなくさ■るは歌なり

　第3位は可読率93％の正保四年板本です。
　認識できていないのが4文字。読み間違いをしているのが8文字でした。「世中」が狂っていますが、何度か読み直しさせてみると、正しく読めているときもあったので、調子が良ければ一位も狙えたのではないでしょうか。
　「衣」「者」、「与」「三」は崩しが似ているので読み間違えています。
　5行目末尾の「い」は、どうも一画目が落ちています。そのためAIは読めていません。こうした印刷のミスを文脈から補うのは、人間の仕事と言ったところでしょうか。

第4位　可読率92％
正保四年板本夥書入「古今和歌集 20巻. [1]」国立国会図書館デジタルコレクション

【字母翻刻】185文字
也満止宇多八人乃心越堂年止之天与路川乃己止
乃葉止曽奈礼利遣留世中仁安流人己止和左志
介支毛乃奈礼者心尓思不事越見留毛能幾久物
丹川気天以比以多世留奈利花仁奈久宇久比春水丹
春武可八川乃聲越幾計者伊支止之以介流毛能（以）
川礼可歌遠与満左利介留地可良越毛以礼春之天
安女川知越宇己可之女尓見衣怒於尓神遠毛阿者
禮止於毛者勢於止己女能奈可越毛也八良遣太介起
毛能ゝ婦乃心遠毛奈久左無留八哥奈利

【AI】
やまと「こ」たは人の心をたねとし■よろつのこ■
の葉とそなれりける世中《に》ある人ことわさし
けきものなれは心に思ふ事を見るものきく物
につ「気」ていひいたせるなり花になくう■ひす水に
すむかは「門」の声をきけは「伊」■としいけるものい
つれか歌を「え」まさりける「地」からをもいれすして
あめつちをうこかしめに見えぬおに神をもあは
れとおもはせおとこ女のなかをもやはらけたけき
もの■ふの心をもなくさ■るは「寄」なり

　第4位は可読率92％の正保四年板本でした。
　これは第3位と同じ版本なのですが、夥しい書入が全面にあります。末尾によると明治二十八年に書き込まれたようです。私の予想では、これはかなり順位が低いと思っていたのですが、書入を悉く認識せず、版本の文字を上手く拾い上げており、殆ど3位と差がありません。
　AIの認識精度が上がると、かえって判読ミスが増えそうな感じがします。
　1行目「天」、5行目「支」、9行目「無」は3位と同じく読めていません。

第5位　可読率91％
永正七年写本　国文研初雁　ROIS-DS CODH

【字母翻刻】194文字
也満止宇多八比止乃古ゝ呂遠多祢止之天与呂
川乃己止能者止曽奈禮里計留世中尓安留人
己止和左之計幾毛乃奈礼八心尓於毛不己止遠見留
毛能幾久毛能尓川気天以比以多世留奈利花尓
奈久宇久比春三徒尓寸武可八川乃宇恵遠幾計
八以幾止之以気留毛能以川礼可宇多遠与満左利計留
知可良遠毛以礼春之天安女川地遠宇己可志女尓見衣
奴鬼神遠毛安者礼禮止於毛者世於止己女能奈可
遠毛也八良気太気幾毛能ゝ婦乃心遠毛奈久左
武流八歌奈利

【AI】
やまとうたはひとのこゝろをたねとしてよろ
つの■とのはとそなれりける世中にある人
ことわさしけきものなれは心におもふ■■を見る
ものきくものにつ「参」ていひいたせるなり花に
なくうくひすみつにすむかはつのこゑをきけ
はいきと■い「気」るものいつれかうたをよまさりける
ちか■を「こ」いれすしてあめつ地をうこかしめにみ「也」
ぬ鬼神を■あはれとおもはせおとこ女のなか
を■や「い」■「気」た「気」きものゝふの心を■なくさ
むるは歌なり

　第5位は可読率91％の永正七年写本です。
　読めていないのが9文字、間違えているのが7文字でした。
　2、3行目の「己止」はやはり読めていません。さらに7、8行目の「毛」も読めていません。「毛」はここ以外に九例ありますが、読めていない二例は特徴的な形をしています。この字形はデータがなかったのでしょうか。

第6位　可読率88％
元応元年写本　国文研貴重書　ROIS-DS CODH

【字母翻刻】197文字
也満止宇多八比止乃古ゝ路遠堂祢止之天与路津
能古止乃葉止楚奈連里気流世中尓安留人古止
和左志気幾毛乃奈禮八心尓於毛不己止越美留毛
乃幾具毛乃尓川気天以比以多世流奈利花尓
奈久宇久比春見徒尓寸武可八津乃己恵遠幾計八
以幾登之以気流毛乃以川連可宇多越与万佐利介利
知可良遠毛以連須之天安免徒知遠宇古可之目尓
美衣奴於尓神遠毛阿者礼止於毛八世於止己遠
武奈乃中遠毛也八良気堂気起毛乃ゝ婦乃
古ゝ路遠毛奈久左武留波哥奈利

【AI】
やまとうたはひとのこ■ろをたねとしてよろ「津」
のことの「り」とそなれりける世中にある人「あ」と
わさし「気」きものなれは心におもふこ■を■「日」も
のきくものにつけていひいたせるなりきに
なくうくひ■「見」つにすむかは「津」のこ「廻」をきけは
いきとしい「重」るものいつれ■■たをよまさりける
ちからをもいれ「に」してあめつちをうこかし目に
み■ぬおに神をもあ■「礼」とおもはせおとこを
むなの中をもやは「ゝ」「乗」「る」た「気」きものゝふの
こゝろをもなくさむるは歌なり

　第6位は可読率88％の元応元年写本です。
　90％を下回りましたが、まだ読めている方ではないかと思うのは、評価が甘いでしょうか。
2行目の「葉」を「り」としており、AIは「梨」と読んだようです。
　あまり普段見ない気がするのですが、この『古今和歌集』十本を見ていて、「け」の字母に「気」を用いることが多いなという印象があります。十本全体の使用数は以下の通りです。
「計」22、「介」19、「気」19、「遣」7、「希」4
　普段あまり見ないので目に付いただけかもしれません。ただ、AIが意外とこの「気」に苦戦しているのです。3、9行目では「気」と漢字におこし、6行目は「重」、9行目は「乗」になっています。他の写本でも正しく読めていないことが多いです。
　この写本は6行目の「宇」や8行目の「衣」など、読ませるにはかなり厳しい字形があるのも、可読率が低い原因でしょう。

第7位　可読率84％
寛文八年写本　京都大学附属図書館

【字母翻刻】192文字
也満止宇太盤人乃心遠多祢止之天与路徒乃
古止乃者止所奈礼利計留世中安留人古止和左
志計幾毛乃奈礼八心尓於毛不己止遠美留毛乃幾
久物尓川計天以比以多世留奈利花尓奈久宇久
飛春水尓寸武加者川乃己衛遠幾計者以幾
止之以計留毛乃以川連可宇多遠与末左利計留知可
良遠毛以礼寸之天安女川知遠宇己可之女尓美衣奴
於尓神遠毛安者礼止於毛者世於止己遠无奈乃
奈可遠毛也八良遣多希幾毛能ゝ婦乃古ゝ呂遠毛奈久
左武留八哥奈利

【AI】
やまとう「八」は人の心「せ」たねとしてよろ「御」の
こと■はと■なれりける世中「め」る人こと「れ」「た」
しけ「れ」ものなれは心「か」おもふ■とをみ「両」■のき
く物■つけていひいたせるなり花になくう「て」く
ひす水にすむかはつのこ「る」をきけ「え」いき
としいけるものいつれかうた「け」■まさりけるちか
らをもいれす「ら」■あめつち「け」うこかしめにみ「て」えぬ
お■神をもあはれとおもはせおとこ「け」■なの
なかをもや「い」らけたけきもの■ふのこゝろをもなく
■むるは歌なり

第7位は、可読率84％の寛文八年写本です。
2行目は「古止」なので読めているのですが、3行目の「己止」はやっぱり読めていません。
2行目、「世中にある人」ですが、この写本は「に」が落ちています。「中」の末から「あ」の一画目に接続していますが、AIはこのクッと曲がったところを見落として、「め」と読んでしまっています。連綿は切れ目の位置を間違えると途端に読めなくなるので、判断は柔軟に行わないとドツボにハマります。AIではそういう、上を少し含む場合と、含まない場合とで判読に差がでるとかいう、文字を認識する範囲と結果に関する学習って、できるものなのでしょうか。
私は機械学習については全くの素人なのですが、文脈判断が行えるようになると、認識範囲の違いから生じる読み取り結果の差に、文脈を合わせて最終的な判断を下すといったことも、可能になるのではないかと想像しています。

AIは文脈が理解できないという話を聞いたことがありますが、「ELYZA DIGEST」（https://www.digest.elyza.ai/）も出て来ましたし、一定程度は判断できるようになると思います。

第8位　可読率76％
永正十六年写本　国文研貴重書　ROIS-DS CODH

【字母翻刻】195文字
也末止宇多波人乃己ゝ呂遠堂祢止之天与呂徒乃己止乃
者止曽奈礼利介留世中尓安留人己止和左志計幾毛
乃奈礼者心尓於毛不己止遠見留毛乃幾久毛乃尓徒幾
天以比以多世留奈利花尓奈久宇久日寸水尓寸武加者
徒乃己恵遠幾計者以幾止之以介累毛乃以川礼可宇多
遠与万佐利介累知可良遠毛以礼寸志天安免徒知
遠宇己可之女尓見衣奴於尓神遠家安者礼止於毛
者世於止己遠武奈乃奈可遠毛也波良遣堂介幾毛乃ゝ
布乃心遠毛奈久左武留者宇多奈利

【AI】■26「18」《1》
■まとうたは人のこ■ろをたねと■てよろつの■「も」の
■と「了」■れ■け「ろ」世中にある人■とわさし「に」き■
の「寺」れ■■におもふ■■を見るものきくも■につけ
ていひい■せ「な」■■花になくうく■す「小」にすむ「ほ」は
つの■「立」をき《げ》はいきとしいけるものい「へ」れ■「こ」た
をよまさ■けるちからをもいれすし「ー」あめつち
をつこかしめに見えぬおに神を■あはれとおも
■せお■■をむ「我」のなかをもやはら「せ」た「に」きもの■
ふの心をもなくさむるは「こ」「し」「得」り

　第8位は可読率76％の永正十六年写本です。
　定家様のぼたっとした文字で、太いところと細いところの差が激しいのでAIを苦しめたことでしょう。読んでいない文字が26、読み間違いをしているのが18文字もありました。
　一文字目から読めていないのがズッコケポイントですね。二文字づつ抜けている箇所が四箇所ありますが、何か傾向があるのでしょうか。よくわかりません。
　「己止」が悉く読めていません。「利」もさっぱり読めていません。検討範囲の中では最後の利以外空白です。「奈」もかなりボロボロです。字形としては二種類見えていますが、寺、我、得と……。なるほど言われてみれば確かに似てますね！経験的に蓄積されてきた誤りやすい字形ですが、AIによってデータ化すると様々な誤写の分析に仕えそうです。
　癖の強い写本であることは確かです。

第9位　可読率74％
尊経閣叢刊「古今和歌集 : 20巻. [巻第1～第10]」国立国会図書館デジタルコレクション

【字母翻刻】200文字
也万止宇多波人乃心
遠太祢止之天与呂川
乃己止能者止曽奈礼梨
介累与乃中尓安留人
己止和左志介幾毛乃奈
礼盤己ゝ呂尓於毛不己止遠
美留毛乃幾久毛乃尓徒
介天以比以堂世類奈利
花尓奈久宇久比春美徒
尓須武加者徒乃己恵遠幾
介波以支止之以計留毛乃
以川礼可宇太遠与万左利
介累知可良於毛以礼春之
天安女川知遠宇己加之
女仁美衣奴於尓加美遠裳
安者礼止於毛者勢於止己
於武奈乃奈可於毛也者良計
堂介幾毛乃ゝ布乃己ゝ呂遠
毛奈久左武留波宇太奈利

【AI】■33「9」《10》
やま《と》うたは人の心
をたねと■■よろ《つ》
のことのはと■なれ■
け「に」《子》よの中にあ「か」人
■とわさし「そ」き■のな
れはこ■■に《お》《も》ふ■と■
みるものきくものにつ
■「く」い■いた■■なり
花になくうくひすみつ
■すむかはつの■ゑを■
■はい「ま」としい《け》るもの
い■れかうたをよ■「き」■
けるちからおもいれす■
「く」あめつちをうこか■
めにみ■「枚」おにかみをも
《あ》はれとおもは《せ》おとこ
おむなのなか《お》■やは■《げ》
た■■もの■■のこ■■を
もなく「き」むるはうたな■

第9位は可読率74％の尊経閣叢刊本です。
　一文字一文字余白が大きく、丁寧に書かれていますが、影印のため紙面が黒ずみ、ノイズの多さがAIを苦しめたことでしょう。
　読んでいない文字が33、読み間違えているのが9文字、二重三重に読んでいる文字が10もありました。
　どうも踊り字を読むのが苦手なようです。読んでいない文字は、文字として認識できなかったからなのでしょうか、人間であれば読めずとも字があることぐらいはわかります。
「之」など簡単に読めそうなものも読めていません。
黒ずみの濃いところでも、ちゃんと読めているものも多いので、判読への影響はよくわかりません。
　二重三重に読んでいる文字が多いところからすると、余白が大きいのは、却って読みにくいのかもしれません。

第10位　可読率59％
文明三年写本　国文研貴重書　ROIS-DS CODH

【字母翻刻】192文字
也満登宇多盤人乃古ゝ路越堂祢止之天与路
津農己止乃者止楚奈禮利気流世中丹安流人
己止王左志気幾毛能奈連者心耳於毛婦事遠美留
毛能幾久毛乃耳津気天以飛以堂世流奈利花耳奈久
宇久飛春水丹春武加者津乃己恵越幾気者以幾止之
以気流毛乃以津連可宇太遠与満左利希類地可良越毛
以連春之天安女津知遠宇己可之女尓見衣奴於丹神
越毛安者禮登於毛者勢於止己遠无奈乃中越毛屋者良遣
多気幾毛能ゝ婦乃心遠毛奈久左武留盤哥奈利

【AI】■51「25」《2》
やま■う「ま」「た」人の■■ろを■ね■して■ろ
つ■■との■■そ■■り「望」る世中■あ■人
■と「に」さし「生」きもの■れ■心に■■ふ「半」をみる
もの■く■の■つ■て「以」ひいた■るなり「き」■なく
■くひ■水「十」すむか■つのこゑ■き「束」■「以」き■し
「御」「筆」る「か」の《い》つれか■「ん」を■ま「ま」りけ「れ」「地」から■も
いれすしてあめつ「い」をうこ■しめ「に」「ん」■ぬお■神
「ゆ」もあ「え」れ■■■■■おとこ■ん《な》の中「さ」■やはらけ
た■き■の■ふの心を■なく■む「ま」■歌■り

　十本中、最もAIが読めていなかった第10位は可読率59％の文明三年写本です。
　極細の線がひょろひょろと流れ、紙面全体に濃淡が表れています。この細い線を文字だと認識するのは、かなり難しかったと思います。
　読んでいない文字が51、読み間違えている文字が25ありました。読んでいない上に読み間違えているので、冒頭から「やまうまた人のろをねして」となっており、まったく意味が分かりません。AIの判読をそのまま活字で書き出してしまったら、わけがわからなくなります。これ程までに読めていないのは、線の細さが原因であろうと思います。
　2行目の「流」など、さんずいが細すぎて見えません。私も一見してわからず、わざわざ拡大して確認しました。逆にここまでくると、9行目の「能」など、良く読めたなぁと関心してしまいます。これが読めたなら他のも読めたのでは？という気にもなるので、文字として認識するハードルはあまり高くないのかもしれません。データさへ充実すれば、挽回も可能でしょう。

まとめ

以上、『古今和歌集』十本の比較検討結果でした。
上位はいずれもしっかりAIが読んでくれているので、そのままでも十分内容を理解することができ、読めていない部分を補うのも容易です。対して下位は特徴的な字形や紙面となっており、データが少ないのか、まだまだAIには任せていられない状況となっています。

どちらにしても、AIの判読が正しいかは確認しないとわかりませんので、結局一回全部人間が読まないとだめなんですよね。AIが代わりに読んでくれると言うより、まだまだ初歩的な補助道具といった印象です。一文字づつやれば、精度はあがると思いますが、全文検索は遠い夢です。

100％読めるようになることはなく、頭打ちはあるそうですが、良く読める本、あまり読めない本の差が縮まると、まとめて扱いやすくなるので、今後に期待したいと思います。

より多くの伝本が95％前後まで読めるようになれば、全文読ませた諸本を別のソフトで比較させることができます。一文字二文字の細かいミスは無視して、数行に渡って異なっている場合など、特徴的な本文の炙り出しができ、奥書ではなく本文による諸本分類に一役買ってくれそうです。それこそ『源氏物語』の古注釈書など、増補された注記を一つ一つ人間が確認するのではなく、翻刻から比較までコンピュータにやらせることも可能になるでしょう。

第4位のような、書入本は、その書入に価値がありますが、現状では殆ど認識すらしていません。この辺りについても、今後のさらなる発展に、注目していきたいと思います。

「己止」が悉く読めていなかったことについては、Twitter上で説明がありました。
https://twitter.com/rois_codh/status/1432337620143538176

余談

普段こんなに写本を並べて、しかも字母で翻刻することなんてないので、比較して眺めていました。字母が全く同じ本というはないんですね。冒頭から少しずつ違っているのが面白いです。ただ一定の傾向もあるようで、結構共通部分もあります。字母の一致率で分類って、やったら意味あるんですかね。聞いたことないんですけど。

●也満登哥　八比止乃心　　遠多年止之天
●也満止宇多八人　乃心　　越堂年止之天
●也満止宇多八比止乃古ゝ呂遠多祢止之天
●也末止宇多波人　乃己ゝ呂遠堂祢止之天
●也満登宇多盤人　乃古ゝ路越堂祢止之天
●也満止宇多八比止乃古ゝ路遠堂祢止之天
●也末止宇太八比止乃心　　遠堂祢止之天
●也満止宇太盤人　乃心　　遠多祢止之天
●也万止宇多波人　乃心　　遠太祢止之天

動画も作ったので、時間があればご視聴ください。

AIはくずし字が読めるのか？古今集十本による可読率ランキング

●算出方法

●比較伝本

●読む範囲

●AI可読率ランキング

第1位 可読率96％文明八年写本 京都大学附属図書館

第2位 可読率95％安永九年板本「古今和歌集. [1]」国立国会図書館デジタルコレクション

第3位 可読率93％正保四年板本「二十一代集 400巻. [1]」国立国会図書館デジタルコレクション

第4位 可読率92％正保四年板本夥書入「古今和歌集 20巻. [1]」国立国会図書館デジタルコレクション

第5位 可読率91％永正七年写本 国文研初雁 ROIS-DS CODH

第6位 可読率88％元応元年写本 国文研貴重書 ROIS-DS CODH

第7位 可読率84％寛文八年写本 京都大学附属図書館

第8位 可読率76％永正十六年写本 国文研貴重書 ROIS-DS CODH

第9位 可読率74％尊経閣叢刊「古今和歌集 : 20巻. [巻第1～第10]」国立国会図書館デジタルコレクション

第10位 可読率59％文明三年写本 国文研貴重書 ROIS-DS CODH

まとめ

余談

いいなと思ったら応援しよう！