見出し画像

#140”みを”対”ふみのは”ーAI頂上決戦?!ー

 前回、#139「AIに古文書は読めるのか? 続報」おいて、二〇二三年一一月に頒布が始まったアンドロイド版のアプリ「古文書カメラ ふみのは」を使用して、どのくらいくずし字が翻刻出来るのかを試してみました。今回は以前、#043「AIに古文書は読めるのか?」で紹介した古文書判読アプリ「みを」とのその比較を行ってみたいと思います。個々のアプリの具体的な話や、使用した史料の写真はそれぞれの回をご参照ください。なお、それぞれのアプリは日々アップデートされていますが、頒布当初の状態で比較していることを予めご了承ください。

 古文書判読アプリ「みを」と古文書解読アプリ「古文書カメラ ふみのは」のそれぞれで同じ史料を判読させてみましたが、写真によって隠れているところもあるので、若干正答の文字数にことなりがありますが、比較すると下記のようになります。

古文書判読アプリ「みを」(カッコ内は判読正解の文字数/正答の文字数)
写真一 59.09パーセント(13/22)
写真二 31.81パーセント(7/22)
写真三 23.8パーセント(5/21)
写真四 95.86パーセント(116/121)

古文書解読アプリ「古文書カメラ ふみのは」(カッコ内は判読正解の文字数/正答の文字数)
写真一 57.69パーセント(15/26)
写真二 68.18 パーセント(15/22)
写真三 0パーセント(0/21)
写真四 64.16パーセント(77/120、古文書AIモード)
写真四の二 85.83パーセント(103/120、古典籍AIモード)

 上記のように、写真一ではほぼ互角、写真二では「ふみのは」の方が正答率が高く、写真三では若干「みを」の方が正答率が高く、写真四でも「みを」の方が正答率が高い、という結果になっています。
 古文書判読アプリ「みを」の特徴としては、1)ルビは完全に無視、2)カタカナで表記されている文字もひらがなに、3)アプリは無料でダウンロード出来、使用する回数に制限はない、という特徴が挙げられます。
まず、ルビを無視する点についてですが、「みを」のもともとの作成目的としては、「源氏物語」などの古典籍を読むということで作成されていますが、古典籍こそ当時のルビがたくさん掲載されており、それこそ「泥棒」と書いて「ぬすっと」とルビを振ることによって、漢字が読めない人にも広く読んでもらえるように古典籍が作られていることが多いので、判読や研究する上ではルビは必要になるのではないかと思いますが、今くずし字を読めないけれどもこれから読もうとする人を対象にする際にルビを完全無視というのは如何なものか、と思えました。また、カタカナをひらがなに変換しての活字化することについては、くずし字を読めるようになりたい、という方の活用を考えると、カタカナはカタカナとして、ひらがなはひらがなとして表記しないと文字の読み方について誤解を招くと思われます。 使用回数に制限が無いという点については、これからこのアプリを元にくずし字を勉強しよう、読めるようになろうという方にとっては非常にありがたい点ではないかと思います。
 

 古文書解読アプリ「古文書カメラ ふみのは」の特徴を挙げると、1)テキスト抽出が画面での表示と異なる、2)古文書モードと古典籍モードあり、3)無料での使用回数に制限、という点が挙げられます。まず、画面での表示されている抽出したテキストの並び順とと異なるという点についてですが、画面上で各文字に判読した文字が該当する文字の上に表示されますが、テキストとして抽出した際には、表示されている行の通りにテキストが抽出されずに、あちこちのものが混在した状態でテキスト抽出されます。テキストを使用しようと思えば、一旦画面を見ながら配置換えをしないと、ちょっとそのまま使用することが出来ないので、大変不都合があります。次にド古文書を判読する際と古典籍を判読する際のモード変更が出来るという点についてですが、それぞれに特化したAIが搭載されているようで、モード変更によって判読の正答率がアップするということと見受けられます。実際に戻の変更をして試してみた場合に、上記の記載では64パーセントから85パーセントと約20パーセントの正答率アップが出来ています。これはこのアプリの大きな特色と言えるでしょう。無料の使用回数に制限があるという点については、アプリのダウンロードは無料となっていますが、一日での使用回数が三〇回に限定されています。これを多いと取るか、少ないと取るかはどのように使用するかによるでしょう。博物館で古文書がたくさんある展示の場合に、この回数で用が足るかどうか、や、あるいは自分で一日で多くの史料を読みたい、という場合には、この回数では少ないと不満が残るかも知れません。

 このように、「みを」と「ことのは」にそれぞれの特徴がある訳ですが、著者の使用感としては、「ことのは」に古典籍AIモードがあるにも関わらず、「みを」より正答率が低かったという点が気になりました。写真二以外は「ことのは」の正答率が「みを」より低いという結果が出ています。全体的な正答率は「みを」の方が高かったと言えます。わざわざ古典籍AIモードを搭載している「ことのは」よりも、古典籍を扱った写真四において「みを」の方が10パーセントも正答率が高いため、折角搭載している古典籍AIモードが「ことのは」で生かし切れていないように思えました。また、明治時代の罫紙の史料を用いた写真三については、「ふみのは」は全く読まなかったというのは問題点として挙げられると思います。使用される方がどのような史料を読むかどうかわからないので、「古文書解読アプリ」と銘打っている以上、史料を選ぶアプリであるというのは問題ではないかと思います。

 今回の結果はあくまで著者の試してみた結果です。そのため、扱う古文書によっては、正答率にばらつきがあるかと思いますので、実際に自分で古文書、くずし字を読んでみたいと思われた方は、上記の特徴を理解した上でぜひ試してください。

いいなと思ったら応援しよう!

Nobuyasu Shigeoka
いただいたサポートは、史料調査、資料の収集に充てて、論文執筆などの形で出来るだけ皆さんへ還元していきたいと思っております。どうぞよろしくお願いいたします。

この記事が参加している募集