
科学技術情報データベースを知ろう! - Microsoft Academic Graph & Lens編
はじめまして、林 尚芳 (はやし たかよし)と申します。先進情報学研究所に所属するデータアナリストです。日々、クライアントの方々と調査・データ分析プロジェクトに取り組んでいます。
早速ですが、皆さん、論文情報を分析したことはありますか?その時、どのようなデータベースを使っていますか?今回は、皆さんの科学技術情報分析に役に立つかもしれないデータベースを紹介したいと思います。
学術論文の有償・無償データベース
学術論文の有償データベースであれば、Scopus(Elsevier社)やWeb of Science(Clarivate社)が有名かと思います。一方で、世の中、無償データベースも豊富です。例えば、Microsoft Academic Graph(MAG)は有名ですが、残念ながら2021年12月末で終了してしまいました。ただ、米国・非営利団体であるOurResearchが、MAGの後継版として「OpenAlex」を開発しています。日本語の記事だと、「米・OurResearch、OpenAlexのベータ版を公開」というものがあるので参照ください。
おそらく、有償と無償のデータベースでは、収録内容の差が気になると思います。例えば、Scopus、Web of Science、MAGの比較については、NISTEPから「Microsoft Academic Graph 書誌情報データベースとしての評価(2018)」という報告が出ているので参照ください。書誌情報(所属機関情報等)は、有償データベースの方が整えられていると思いますが、収録件数は有償データベースよりもMAGの方が多いです。下記グラフは、NISTEPの報告から抜粋したものです。

分析目的や対象分野にもよると思いますが、緻密な組織分析ではなく、研究動向を調べるといった目的では、こういった無償データベースを活用するのも良いのではないでしょうか。
「Lens.org」という新世代データベース
Lensとは、豪・非営利団体であるCambiaとQueensland University of Technologyが運用するデータベースです。一部、有償機能はありますが、多くの機能は無償で使うことができます。
収録内容は、論文と特許、そして、その間のリンケージ情報です。各情報はPubMed、MAG、Crossref、米国特許庁、欧州特許庁、WIPOといったソースから集めています(個人的にはMAGが終了してしまったので、Lensへの影響も気になるところです)。

せっかくなので実際に検索した結果を紹介します。下図はデータ可視化に関する論文を検索した結果です。簡単な操作で検索できますし、検索結果も色んな表現で可視化できるので、素早く概況を把握することができます。



また、Share機能があるので、検索条件・結果・可視化結果をメンバーに共有するのにも便利です(今回のデータ可視化の検索結果はこちら)。また、Export機能もあり、CSVやJSONといった形式でダウンロードすることができます。タイトル、アブストラクト、発表日、著者名、機関名、分野、キーワード、引用情報、被引用数などをダウンロードできます。

Lensデータを使った「データ可視化の可視化」
ダウンロードできるということは、皆さんの好きなツールを使って分析することができます。試しに上記で検索したデータ可視化に関する論文について、VALUENEX Radarで可視化してみました。
下図は私たちが俯瞰図と呼んでいるもので、1プロットが1論文を表しており、文書が類似するものは近くに、類似しないものは遠くに配置するアルゴリズムで可視化しています。今回のデータセットは3万件ほどあったのですが、1件1件読んで全体像を把握することは大変だと思います。そこで、データマイニングやデータ可視化技術といった計算機の力を借りることによって、論文の全体像を容易に把握することができます。なお、今回の俯瞰図を眺めてみると、データ分析・可視化手法を中心に、周囲に様々な応用先が出現していることが分かります。

ダウンロードデータには発表年の情報もあるので、時系列推移を把握できます。下図は5年ごとに期間を区切って、ヒートマップ形式で俯瞰図を表現したものです。こう並べてみると、基本的な分析・可視化手法から、様々な応用・インタラクションへ、研究が発展してきていることが分かります。


また、エマージングな研究領域を把握することもできます。俯瞰図上で、直近盛り上がってきている領域を抽出して赤色で示しています。ビジネスや社会問題への利用、IoT・環境モニタリング、データ可視化アルゴリズム(T-SNE、UMAP)、因果関係、COVID-19などが盛り上がっており、まさしくデータ可視化研究の学際性を感じる結果となりました。

著者情報も含まれているので、著者毎にどんな研究をしているのか把握することもできます。発表件数1位であったMa教授はレンダリングが中心であり、2位であったKeim教授はニュース分析、テキスト分析、ビジュアルアナリティクスといった分野を研究しています。一目で、各研究者の取り組みの違いを知ることができます。所属機関別の取り組みも、同様の方法で見ることができます。

余談ですが、Keim教授は「ビジュアルアナリティクス」の学際性、面白さ、課題について、「Challenges in Visual Data Analysis (2006)」や「Visual Analytics: Definition, Process, and Challenges (2008)」という論文にまとめています。データ可視化分析に興味がある方は参考にしてください。
おわりに
科学技術情報に係るデータベースは、今回紹介したもの以外にも、まだまだ沢山あります。こういったデータベースの進化は、研究の在り方を変え、科学技術の進展を加速させていく重要なファクターになると思います。
ちなみに論文と聞くと、まずは査読付き論文や国際会議論文などを想起するのではないでしょうか?学術情報流通の在り方を変え、オープンサイエンスを促進させるという文脈でいうと、「プレプリント」という存在も重要です。プレプリントとは、査読前の段階で、オープンアクセスできるプラットフォームに登録・公開される論文原稿です。近年、NISTEPではプレプリントに関する調査を積極的に進めており、様々な報告が発表されています。例えば、「COVID-19で加速するオープンサイエンス -プレプリント分析にみる学術情報流通の変容-(2021)」は包括的に書かれている1つであり、非常に参考になります。
科学技術情報を分析をする私たちは、どのようなデータベースが生まれ、どのように研究活動に活用され、そして、科学技術の進展と社会変容を促していくのか、常にウォッチし、想像する必要があるのではないでしょうか。今後、私が担当するnote記事では、こういったデータベースの概要やデータの取得方法などを紹介できたらと考えています。次回は、上記でも触れたプレプリントの概要と、有名なプレプリントサーバーである「arXiv(アーカイブ)」を紹介したいと思っています。