
国立国会図書館「次世代デジタルライブラリー」で「特許調査」について書かれた本を探してみた
こんにちは!特許調査の仕事をしてます、酒井といいます。この記事は「国立国会図書館・次世代デジタルライブラリー」の全文検索について書きます。
国立国会図書館・次世代デジタルライブラリーとは?
「次世代デジタルライブラリー」は、国立国会図書館次世代システム開発研究室での研究を基に開発した機能を実装した実験的な検索サービスです。
国立国会図書館デジタルコレクションで提供している資料の中から、著作権の保護期間が満了した図書及び古典籍資料全部(約35万点)が検索可能です。
以下の機能を備えています。
●「全文から検索する」では、OCRにより生成された全文テキストから資料を検索できます。 ヒットした部分はスニペット形式で表示されるほか、資料画像の上に一致箇所がピンで表示されます。
というもので、「著作権保護期間の満了した古い本を」「全文検索できるようにした」という、気が遠くなるような事業によって作成されたサービスです。
検索対象としては➀著作権保護期間の満了した古い本 ②古典籍資料 の2種類が含まれています。
それぞれ、OCRテキスト化事業の概要はこちらです。
想像を超える「テキスト化作業」
国立国会図書館月報 2022年5月号
こちらの写真、なんか・・・すごくないですか!?(語彙力
古書をスキャンしている様子、ということなんですが
ものすごく人海戦術で、とにかく圧巻のひとことです。

資料のデジタル化というと、コピー機での単純作業のようなイメージが思い浮かぶかもしれません。しかし、30万点もの規模で、かつすべての資料が基本的に一点物で破損が許されないとなると、その作業はコントロールされた工業生産プロセスのようになっていきます。
(国立国会図書館月報 2022年5月号から)
また、デジタル化の対象は昭和前期以前に受け入れた資料が半分近くを占めており、既存のOCRサービス・OCRソフトウェアを用いた場合、レイアウトがシンプルで読みやすい新刊書等に比べてテキスト化の文字認識性能が大きく下がってしまうそう。
テキスト化にあたっては、国立国会図書館の蔵書に特化した「正しい読み方」をOCRに覚えさせるために、機械学習も駆使されたそうです。

全文検索と画像検索が可能に
「次世代デジタルライブラリー」では全文検索と画像検索が可能です。「全文から検索する」では、OCRにより生成された全文テキストから資料を検索できます。
また、個人的には画像検索の方が驚きが大きかったです。特許調査でも「画像で探したい」という時がありますが、現状では画像で探すの難しいですもんね。。
「画像から検索する」では、図書及び古典籍資料中から自動的に切り出された約860万点の画像・図版を検索できます。絵を選ぶことで、似たような画像を含む資料を探すことができます。
切り出された画像・図版には、機械学習により自動的にタグが付与され、タグを利用した絞り込み検索が可能です。
ということで、それぞれの機能を試してみることにします。
全文検索で「特許調査」と入れてみると?
「著作権が切れている=古い本」なんだから、そんなに多くはないでしょう、と予想しながら「特許調査」を検索すると・・・

結果は27件です。
該当箇所も表示されるので選びやすいです!

書籍名をクリックで表示させてみると・・・
該当ページ(該当コマ)も示されるので、
ヒットした箇所を探しやすいです!

青いピンの位置が「特許調査」とOCRされている箇所です。
すごい!大昔の化学薬品の特許番号がたくさん載ってます。

更にズームしてみます。
外国出願人らしき名前もたくさん見えますね!

上の画像で左から2番目「アンモニヤ製造法」ってどんな公報かな?と
J-PlatPatに番号入れてみたら、ちゃんと出てきました。

今回取り上げた「実験化学工業 第3巻」1917年の本、とのことなので
和暦で言うと昭和2年です。
昭和2年に特許リスト作成されてたんだな、と思うと
なんだか感慨深いものがあります。
画像検索機能で「ピンセット」を探す
古い書籍データを使っているということで、あまり現代的な画像は含まれていないと思われますし、元の絵柄そのものが鮮明ではないかもしれません。
ということで
シンプルで探しやすそうかな?と「ピンセット」を聞いてみました。

「はさみ」もかなり混ざってはいますが、
なかなか優秀と言っていいかも・・・!

ひとつ開いてみたら、耳鼻咽喉科の臨床の本でした。
扁桃腺の全摘出の事を書いてます(しまった!ちょっとこわい本だったw)
そして、本文の黄色いマークは私が付けたのですが
自分の事を「余」って書いてますw 王様っぽいです!

補足:NDL Ngram Viewer
国立国会図書館は他にも実験的なシステムを公開しています。
次世代系検索サービスの目次はこちらです。
この記事では NDL Ngram Viewer を紹介します。
Ngram Viewerも
国立国会図書館のOCRテキスト化データを検索できるのですが
先ほどの「次世代デジタルライブラリー」より遙かに検索対象が多いです。
両者の検索対象の違いは下記の通りです。(2023.03時点)

Ngram Viewer は、より多く・より新しい書籍の全文が検索できます。
先ほどと同じキーワード「特許調査」で検索すると
出版年代のグラフが表示され

グラフの下に「国立国会図書館のデジタルコレクション内で 特許調査の語が9864回出現した」と表示されます。
リンクを押すとデジタルコレクションの画面に遷移して
何やら面白そうな見出しが色々表示されます。

内容を確認したい場合ですが、書籍ごとに閲覧方法が決まっています。

「ログインなしで閲覧可能」は、そのまま画面上で内容表示できますが
「送信サービス」は、事前にユーザー登録が必要です。
また「館内限定」は送信サービスの対象外となっている書籍です。
まとめと「個人向け送信サービス」のすすめ
以上のように、国立国会図書館の蔵書はデジタル化が進んでおり
全文検索の範囲もかなり広がってきています。
技術分野によっては、先行文献サーチにも利用できるかもしれません。
また、従来の閲覧方法は「館内閲覧」「図書館を通じたコピー入手」が主流でしたが、現在は「送信サービス」の対象書籍が多くなっています。
https://www.ndl.go.jp/jp/use/digital_transmission/individuals_index.html
私も先日、利用者登録の申請を行いました。
デジタル送信を受けるには「本登録」が必要です。

本人確認書類の提出が必要ですが、オンライン提出できるので簡単です。
その際「本人確認書類の確認に数日を要する」と案内がありました。
この記事をご覧頂いたのを機に
国会図書館の利用登録をしておくのも良いかもしれませんね!
※下記はTogetterより