![見出し画像](https://assets.st-note.com/production/uploads/images/54127025/rectangle_large_type_2_41ddf73bd284416b0ca306c802b38573.jpg?width=1200)
世界の材料科学オープンデータベースとOPTIMADEプロジェクト
OPTIMADEは、フランスのGian-Marco Rignanese先生が中心となって進めてきた、世界の材料データベースを共通のコマンド体系(API)でつなぐプロジェクトです。
私はStarrydataという実験データのオープンデータベースを立ち上げて運営しているのですが、それがオープン志向でAPIを搭載した実験系データベースであったところから、2019年の国際学会でGian-Marco先生の目に止まり、OPTIMADEの会議への招待状をいただきました。
こちらの会議に参加しているのですが、世界の錚々たるデータベースの代表者さんたちと直接ディスカッションできる機会をいただけて、とてもありがたいです。(スイスに招待していただいて1週間議論するはずだったのですが、コロナでこの2年はオンライン開催になってしまい、明け方の自室の会議が眠すぎて私が早期脱落しがちなことが課題です。)
そこで本記事では、OPTIMADEの紹介と、OPTIMADE APIをすでに搭載している材料科学のオープンデータベースを紹介してみたいと思います。
OPTIMADE
OPTIMADEは2016年にスタートしたプロジェクトで、世界中の材料データベースが、互いのデータにアクセスしやすくするために共通のAPIを作るプロジェクトです。このため、各データベースの代表者が年に1回スイスのCECAMに集まってディスカッションしてきました。
これまで、データベースごとにデータを呼び出すためのAPIの仕様が違っていたため、プログラムを書くユーザーは、それぞれの体系を覚えないと使いこなせないという課題を抱えていました。また、もし共通のAPIでデータを呼び出せるようになれば、多数のデータベースからの検索結果をひとつの検索システムで呼び出すこともできそうです。
OPTIMADEのAPI仕様はこちらです。各データベースの固有のAPIはそのままに、OPTIMADEのAPIも別途搭載してもらうことで、もともとのAPIでも、OPTIMADEのAPIのどちらでも、ユーザーがデータを呼び出せるようにしています。
https://petstore.swagger.io/?url=https://optimade.odbx.science/v1/extensions/openapi.json
APIの他にPythonモジュールも開発しているそうです。Pythonを使った開発に慣れている方は、こちらのほうが使いやすいかもしれません。
https://www.optimade.org/optimade-python-tools/
Materials Cloud (mcloud)
A platform for Open Science built for seamless sharing of resources in computational materials science
OPTIMADEのAPIを使って、いろいろなデータベースのデータを横断的に検索できるようにしたプラットフォームです。
https://www.materialscloud.org/
OPTIMADEに対応している材料データベース
以下のサイトにOPTIMADEプロジェクトに参加している材料データベースのリストが載っているので、データベースの説明とリンクを抜粋させていただきました。また、トップページのスクリーンショットを撮らせていただき、私なりの理解で解説を書かせていただきました。
https://www.optimade.org/providers-dashboard/
各データベースの名称の後に、OPTIMADE内での略称をカッコ書きで示させていただいてます。この略称はOPTIMADEからデータにアクセスする時に使うようですが、詳しくはあとで調査します。
結晶構造データベース
COD: Crystallography Open Database (cod)
Open-access collection of crystal structures of organic, inorganic, metal-organics compounds and minerals, excluding biopolymers.
有機化合物、無機化合物、有機金属化合物、鉱物などの結晶構造を集めたオープンデータベースとのことです。検索システムは有機化合物を想定しているのかなという感じです。ユーザーが結晶構造のCIFファイルを提供することもできるようです。
TCOD: Theoretical Crystallography Open Database (tcod)
Open-access collection of theoretically calculated or refined crystal structures of organic, inorganic, metal-organic compounds and minerals, excluding biopolymers.
上のCODと同じグループが出している結晶構造データベースで、第一原理計算によって理論的に求めた構造を集めています。実験の構造と理論の構造が混ざらないようにしているところは良いなと思います。
http://www.crystallography.net/tcod/
odbx: open database of xtals (odbx)
A public database of crystal structures mostly derived from ab initio structure prediction from the group of Dr Andrew Morris at the University of Birmingham .
バーミンガム大のAndrew Morris先生のグループで、第一原理計算によって求めた結晶構造が、データベースとして公開されています。こちらは無機化合物の結晶構造が中心のようです。
結晶構造&電子構造データベース
The Materials Project (mp)
An open database of computed materials properties to accelerate materials discovery and design.
アメリカのMaterials Genome Initiativeで作られた材料科学データベース。2021年6月現在、18万人という圧倒的なユーザー数です。ユーザーインターフェイスが使いやすく、無償とは思えないクオリティです。第一原理計算によるデータが中心に登録されています。Pythonツールとの連携も強いため、私もよく使わせていだだいています。結晶構造データベースとしても利用できます。
https://www.materialsproject.org/
AFLOW (aflow)
Automatic FLOW (AFLOW) database for computational materials science
大量の第一原理計算結果を収録したデータベース。Materials Projectよりも仮想構造のデータが多く、構造予測向けのデータという印象でした。
OQMD: The Open Quantum Materials Database (oqmd)
The OQMD is a database of DFT calculated thermodynamic and structural properties of materials
相図など生成相の予測を中心に据えた、大規模第一原理計算データベースです。仮想構造の数が非常に多いです。
OMD: Open Materials Database (omdb)
The Open Materials Database (omdb) is a database of materials properties maintained by the developers of the High-Throughput Toolkit (httk). It enables easy access to useful materials data, in particular via programmatic interaction using this toolkit.
シンプルなUIのデータベースです。各結晶構造の参考文献が出るところが良いなと思います。
ハイスループット計算支援システム
ユーザーにもハイスループット第一原理計算をやらせてくれるシステムです。
MatCloud (matcloud)
A high-throughput computing platform integrating data, simulation and supercomputing.
AiiDA (aiida)
Automated Interactive Infrastructure and Database for Computational Science (AiiDA)
データリポジトリ(データシェアリング)
NOMAD: novel materials discovery (nmd)
A FAIR data sharing platform for materials science data
JARVIS: Joint Automated Repository for Various Integrated Simulations (jarvis)
JARVIS is a repository designed to automate materials discovery using classical force-field, density functional theory, machine learning calculations and experiments.
実験値データベース
MPDS: Materials Platform for Data Science (mpds)
A highly curated Pauling File dataset based on ~0.5M publications and backing up Springer Materials, ICDD PDF, ASM APD, MedeA, Pearson Crystal Data, AtomWork Advanced, etc.
実験データを大量に収録しているデータベースです。キュレーターさん達が手作業で元の結晶構造まで特定しながら集めているので、非常に高品質なデータセットです。ただ、詳細データへのアクセスには割と高めな年間ライセンスが必要なようです。
まとめ・今後の予定
今回の記事では、とりあえずどんなオープンデータベースが存在するのか知るためにリンクを紹介させていただきました。世界のインターネットには他にもたくさんの魅力的なデータベースがあるのですが、今回はOPTIMADE APIを搭載済みのデータベースという観点でまとめさせていただきました。
これから、各データベースについて詳しく見ていって、どんなデータや機能があるのかについて、まとめていきたいと思います。また、他のデータベースやツールについても調べていきたいと思います。OPTIMADEのAPIを使って、各データベースからどのようにデータを取ってこられるかについても紹介したいですね。
世界のデータベースがこうやってつながりながら相互発展している状況が日本ではまだ十分に認識されておらず、日本の昔ながらのデータベース運営が置いていかれる可能性もあると思うので、最新動向を把握しながらこの流れについていかないとなと思いました。
うちのデータベースについて
Starrydataという論文中のグラフから実験データを集めたデータベースを開発・運営しています。OPTIMADE APIの搭載はまだですが、現在新バージョンの開発を進めているので、その際にOPTIMADE APIも搭載して、世界の他のデータベースとリンクさせられるようにしたいなって思っています。