#048くずし字判読AIはどのように作られているのか?ー続々AIに古文書は読めるのか?
今回は、機械に詳しい方にうかがって、くずし字判読AIについて、どのような仕組みになっているのかについて少し学ぶ機会がありましたので、併せて読んだ論文なども含めて紹介してみます。使用する側の視点ということで、何かの参考になれば幸いです。
AIの学習方法には機械学習とディープラーニングにまず大別され、機械学習には、「教師あり学習」、「教師なし学習」、「強化学習」の3つの分類があるそうです。まず、先の機械学習について簡単に説明すると、機械学習はAIによって人が学習するように機械も学習していくというものにあたります。その機械学習のうちの一つ目の「教師あり学習」は収集した情報に対して、人が正答を出せているかどうか確認し、修正をかけることでその正答率を上げるという学習方法です。二つ目の「教師なし学習」は、答えがない問題にあたる学習方法にあたります。こちらは最も卑近な例では、アマゾンのおすすめ機能に代表される、これを購入した人はこちらも買ってますよ、という、Aを購入した人はBを買っている人が多いのであなたにも必要なのでは?という答えがあるわけではないけれども平均的にこうだというものを導き出す学習方法です。三つ目の「強化学習」は失敗しながら機械が徐々に経験を積みながら成功する方向に進化していく学習の仕方です。こちらはテレビなどで卓球のラリーを延々と続けるロボットなどがその例に当てはまるることと思います。こちらの例は、当初は上手くラケットに球を当てることも出来なかったロボットが、回数をこなすことでその最適解を導き出して、延々とラリーが出来るようになるというものが代表的ではないかと思います。
次にもう一つの大枠のディープラーニングについて簡単に説明します。ディープラーニングは、ニューラルネットワークという人間の脳の仕組みを参考にしたシステムを使って学習する方法で、人間が先生となって例題と模範解答をニューラルネットワークに教えることで、そのあとは教えていない範囲の情報に対してもニューラルネットワーク自体が判断したり推理したりするようになって回答を導き出す、という仕組みです。
この中で、おおむねくずし字判読AIは「教師あり学習」の方法でデータ集積をしていっているように見受けられます。今回、より理解出来るようにということで、下記の論文を読んでみました。
井上聡「東京大学史料編纂所「電子くずし字字典データベース」の概要と展望」(『情報の科学と技術』65巻4号、2015年)
最初の論考は、くずし字のデータベース作成に関するもので、文字を切り分けて電子辞書化するという試みのもので、AIで認識して翻刻する前段階のものです。こちらは東京大学史料編纂所ということもあり、どのようにして使用するかも見据えて、後には花押のデータベースとの連動ということも視野に入れていることが書かれています。
早坂太一、大野互、加藤弓枝、山本和明「ディープラーニングによる変体仮名の翻刻およびWWWアプリケーション開発の試み」(『人文科学とコンピューターシンポジウム』2016年12月)
竹内正広、早坂太一、大野互、加藤弓枝、山本和明、石間衛、石川徹也「ディープラーニングによるくずし字認識組み込みシステムの開発」(『人工知能学会全国大会論文集』JSAI2019、第33回、2019年6月)
川人晋伍、小杉典弘、本田治、木村文則「畳み込みニューラルネットワークを用いた日本語くずし字に対するオフライン筆者照合の試み」(『尾道市立大学経済情報論集』第20号第1号、2020年7月)
小島朋佳、植木一矢「くずし字の翻刻に向けたディープラーニングの活用と分析」(『精密工学会誌』85巻12号、2019年)
上記五本の論考は、くずし字を一文字づつ切り分けて、画像としてデータベースに取り込み、それらデータと判読したい資料とを照らし合わせることで文字認識を行うという、OCR(Optical Character Reader/Recongnition:光学式文字読み取り装置)と同じ仕組みの文字認識の方法です。これらは、正解を人の手で学習させるので、「教師あり学習」の仕組みを利用していることになります。こちらの方法では、文字認識の確度を挙げることを目指しているものの、使用者が読めない場合には不正解も含まれている解答がアウトプットされるけれども、使用者の判断に任されるという欠点が含まれると考えられます。これらの照合元のデータとしては、先の東京大学史料編纂所のものや国立国文学研究資料館などの調査結果などオープンデータとして公開されている物が使用されています。
山本純子、大沢留次郎「古典籍翻刻の省力化-くずし字を含む新方式OCR技術の開発」(『情報管理』58巻11号、2016年)
上記の一本は、凸版印刷によるシステム構築で、完全な解答を作ることはなかなか難しいので、文字認識の範囲の決定や、解答に迷う文字についてはその候補を確率順に上げること、また判読できない部分は正直に判読できないという答えを出すことの三つの特色によって、もともと一から人力で読むところを文字判読の作業部分のみを機械に任せて、最初の切り分けと最後の校正を人力で行って省力化するということを目指したソフト開発です。
黒澤英博「古文書の翻刻支援システムの研究及び開発」(『法政大学大学院紀要』理工学・工学研究科編58,2017年3月)
上記の論考は、独力で修士論文の際に古文書判読ソフトの制作を試みた学生の論考で、これまで上記に挙げてきた文字の写真照合による判読という仕組み以外に、テキストから類推するということも含めて検討した意欲的な論考です。こちらは独力でされているということもあり、収集する情報量が少なかったために、結論としては上手くいかなかった、となっています。
北本朝展、カラヌワット・タリン「くずし字認識のためのKagggle機械学習コンペティションの経過と成果」(『人文科学とコンピュータシンポジウム』2019年2月)
最後の一本は「みを」を制作したスタッフを含むチームの論考で、システムそのものの話というよりは、システム構築のためのコンペでどのような事が起こったか、起こりえるのか、ということを記したものです。こちらのコンペには日本を含め各国からの参加があり、まさに「文字を読む」というよりは「画像を照合する」という方法論に特化した方向性が如実に見える結果となったという感想が記されています。
以上のように、現時点でのくずし字判読の機械化は、写真データによる画像照合という方法で、「教師あり学習」という方向での学習をAIに行わせることで実施しようとしているという全体としての潮流を感じます。しかし、「AIにくずし字は読めるのか??」でも記しましたが、テキストとして文脈を読み取るという方法と、文字の書き順からの判読という方法は、ほとんどどの論考でも捨象されているので、現在、人が文字を判読する方法としてのこの二つの方法を、くずし字OCRが行っている方法(文字の形、シルエットでの判読)に対して複合して用いることが出来るようになると、より判読の精度が上がるといえるのではないかと思いました。