見出し画像

#139AIに古文書は読めるのか? 続報

 #043「AIに古文書は読めるのか?」において、古文書判読アプリ「みを」の使用感をレポートしましたが、今回は新たなソフトが頒布されたので、そのレポートを書いてみたいと思います。前回については下記のリンクからご参照ください。

 今回使用した新たに頒布されたアプリは「古文書カメラ ふみのは」というものです。トッパンの開発、提供しているアプリになります。

 前回「みを」で使用した史料の同じ写真で実際に判読を試みてみましょう。写真は四点になります。

写真一

 判読結果が以下の写真になります。イメージとしては、古文書の写真の上に活字が乗っているような、「みを」と大差ない判読後のデザインです。

写真一の一

 アプリからテキストの抽出も出来ます。この写真の判読結果は下記の通りです。テキストをそのまま抽出すると「過千景子○あかへいとう赤仍ほやとりし木もの一日亀」となっておりました。実際の写真上位表示されたレイアウトとは若干異なります。写真通りにテキストを並べ直すと下記のようになります。

「過千景子
 ○あかへいとう
 仍やとり木
 赤ほしもの一日
       亀」

 正確な解答としては下記の通りです。
「〇一干菓子
  〇ありへいとう
  〇やどり木
 〇赤 おしもの つる
        亀 」
 全体は二六文字で構成されています。「ふみのは」の正解した文字数は二六文字中一五文字になります。正答率としては57.69パーセントでした。
 それでは次の史料を判読にかけてみましょう。

写真二

 写真二は「覚」と標題が付いており、「一金五拾疋 右者月祓御祈祷料 慥ニ神納仕候以上」の二二文字により構成されています。
 では、「ふみのは」はどのように翻刻したでしょうか。次の写真をご覧ください。

写真二の二

「見
 金右五拾而疋
 遊々神納自仕杖候御以上
 祈祷料」
 「ふみのは」のテキスト抽出機能を使ってテキスト化しているのですが、どうも写真一の史料の際と同様に、写真への文字の配置とテキストデータとに文字の並び間違いが発生するようです。写真通りにテキストを並べ直すとこのようになります。
「見
 金五拾疋
 右而自杖御祈祷料
 遊々神納仕候以上」
 正答では二二文字ですが、二一文字と認識し、そのうち一五文字が正解でした。正答率としては68.18パーセントになります。

 さらに三つ目の史料を判読にかけてみましょう。

写真三

 こちらは明治時代の罫紙に書かれた史料です。この史料には「十一日 八尾銀行重役会又光平紀念碑除幕式ニ行」と二一文字書かれてあります。この史料に関しては「ふみのは」は全く翻刻が出来なかったようで、テキストが生成されませんでした。
 最後に「みを」が得意とする版本の翻刻を「ふみのは」で試してみましょう。

写真四

 この史料は国立国会図書館のデジタルライブラリーで公開されている『都名所図会』の一部をパソコンのディスプレイから携帯で撮影したものです。画面から乱雑に撮影したので、文末が切れていますが、上の写真には最初の行には「松崎本涌寺ハ開基日生上人にして日蓮宗派なり、天正年」、次の行には「の学室となる、妙泉寺ハ日像上人のひらき給ひし所」、3行目は「毎歳七月十六日堂のまへにて此里の老若男女うち」、4行目には「つけ声おかしく拍子とり踊り狂ふなり、是なん松崎」、5行目には「名に高し、其夜うしろの山において妙法の二字を焼」、5行目には「会の送火とするなり」とあり、全体で一二〇文字あります。
 これを「ふみのは」が翻刻すると下の写真のようになりました。

写真四の二

「松崎本漏寺ハ開基日生上人しにして日蓮宗派なり
 の学室となる妙泉寺ハ日像上人のひウりホらきゐし
 く候ひ毎歳七月十六日堂のまへつ気しくにて此里の老若男女候
 け物る様子せり処度し其申山りし隙に候
 候會の送火とするなり支壱出」
 先ほど同様に文字の配置がテキスト化すると異なっています。写真に掲載している通りに戻すと以下の通りになります。
「松崎本漏寺ハ開基日生上人しにして日蓮宗派なり
 の学室となる妙泉寺ハ日像上人のひらきゐひし
                 ウりホく候
 毎歳七月十六日堂のまへにて此里の老若男女候
 つけ気物るしく様子せり申り候
 処度し其し隙山に候
 會の送火とするなり支壱出」
 最後の「支壱出」は欄外の行になるので例外として除くとして、翻刻した文字は一〇四文字で、そのうち正解は七七文字。64.16パーセントの正答率です。
 この「ことのは」には「古文書AI」「古典籍AI」という判読に際して二つのモードから選ぶことが出来るようになっています。これまでの翻刻に対しては「古文書AI」モードで試していましたが、この写真が版本であるため、併せて「古典籍AI」モードでも試してみたいと思います。その結果が下の写真です。

写真四の三

 「松崎本涌寺ハ開基日生上人にして日蓮宗派なりん
 その学室なる妙いり日泉寺しハ日青うと像上人のくひらきしかにくな給んひ申毎歳七月十六日堂のまへにて此里の老若男子色つにけ奉高おかししく拍其夜うとりの山珎る小お相ふいてな御り治なのん女ばうしろ会の送火とするなり其虫尽あ」
 上記のようになりました。やはり画面で見ているものとテキスト抽出したものに配置のことなりが見受けられます。画面の通りに配置し直したものが下記のものです。

「松崎本涌寺ハ開基日生上人にして日蓮宗派なり
      いり日んし 青そう
の学室となる妙泉寺ハ日像上人のひらき給し
                くかにくなん申
毎歳七月十六日堂のまへにて此里の老若男子女う
つけ奉おかしく拍子とり珎る相ふなりなんば
色に高し其夜うしろの山小おいて御治の
会の送火とするなり其虫尽あ」
 上記のテキストで一二九文字として翻刻しています。そのうち聖化した文字は一〇三文字で、正答率は85.83パーセントでした。「古文書AI」モードより「古典籍AI」モードの方が二割ほど正答率が上がっているため、版本の判読には「古典籍AI」モードがやはり適しているということが判ります。

 ここまで四点の史料の写真から翻刻を試みましたが、正答率としては〇~八割六分と非常に振り幅が大きかったと言えるでしょう。「ふみのは」の得意とする史料であれば、八割五分くらいの正答率ということで、それなりに利用する価値はありそうですが、得手不得手を全く古文書を読めない人が判断することが困難なので、万人が上手に使用することはなかなか難しいアプリだと言えそうです。

 



この記事が参加している募集

いただいたサポートは、史料調査、資料の収集に充てて、論文執筆などの形で出来るだけ皆さんへ還元していきたいと思っております。どうぞよろしくお願いいたします。