見出し画像

10年以上前に記した、演繹と帰納・マテリアルズインフォマティクスに関するエッセイ

前回に続き、昔の原稿を紹介しておきます。これも2012年12月のものです。

この文章は、後に "マテリアルズインフォマティクス (Materials Informatics)" と呼ばれる、AIを用いて材料設計をする取り組みを、社外に宣言するために書いたものです。世界観として演繹と帰納の対比を語っていますが、"データサイエンス" という言葉も定着しておらず、データ中心科学 (Data Centric Science) という言葉が使われていた頃です。

前回は未来予測を外した話でした。今回は、結果論ではありますが、未来を作った話かもしれません。アラン・ケイの言葉が思い出されます。

未来を予測する最善の方法は、それを発明することだ

アラン・ケイ

メインは演繹と帰納の対比ですが、サブストーリーとして、現実世界がビッグサイエンス化したので計算機の有用性が浮上したとあります。しかし昨今の大規模言語モデルを見ると、データサイエンスの最前線も普通の人には手が出なくなっています。正直言って、ここまでは見通せていませんでした。



ビッグデータと化学

科学的思考というのは,仮説を立てて検証することだ.ガリレオがピサの斜塔で自説を確かめたのはまさにその例で,自説を明確に意識し,客観的に検証するための道具立てを用意する.結果が仮説に合致すれば仮説が正しかったことになる.ガリレオは素晴らしいことに,自分の仮説を自分で検証するだけの才気があったが,必ずしもそういうケースばかりとは限らない.その場合には,予測された法則は予言のように語り継がれ,実証のときを待つのだ.だから,いつも仮説や予言や迷信の方が実証された法則よりも多く,その結果,幸か不幸か科学者はいつまでも忙しいことになる.

その中でも,実証が困難なほど規模が大きい実験というのが存在する.例えば原子核や素粒子にまつわる研究は,キッチンでパンを焼くようにはいかない.より精妙な観測をするためにはより大きな設備が必要で,時代を追うごとに巨大化しつつあり,今日ではもはや山を取り巻き地形を変えるほどの加速器や,地下1000メートルの巨大なプールを作ったりする必要があるのだ.こうして,仮説検証はビッグサイエンス化し,ほとんど原理的に検証不可能な仮説の山の中で,ごく一部が確かめられたりしている.

この流れは,しかし近年のコンピュータの発達と共に,異なる展開を生み出した.コンピュータ・シミュレーションである.シミュレーションは,現実には実験できないごく短時間の反応や,試すには危険な条件,現実には起こり得ない極端なケースなど,ビッグサイエンスを補う用途で非常に有用となっている (単に莫大な予算で実験施設を造らずに済むというだけでもメリットは大きい).シミュレーションは,高速で並列化が可能なため,種々の仮説を次々と検証することができる.普通の条件から極端な条件まで,あるいは少しずつ条件を変えた再計算など,仮想的な状況を含めて思いのままに試してみることが可能になった.コンピュータの性能向上と共に,実は仮説検証のプロセス自体が飛躍的な進化を遂げているのだ.

だが,ここでいったん立ち止まって,科学というものを考えてみてほしい.そもそも,仮説を立てて検証することだけが科学だろうか?

昔の生物学者で,リンネという人がいた.ニュートンの少し後くらいの時代だ.リンネは,動物や植物の分類の基礎を作った人で,分類学の父と言われている.当時の方法だから,分類の方法としては見た目に頼るしかないが,世の中に無数にある植物や動物を似たもの同士により分けて整理する方法を確立したのは,リンネの業績だ.ここから,世界中のありとあらゆる生物は,数え切れないほどの生物学者によって分類・整理されていった.

さて,このプロセスに仮説はあるだろうか.コントロールされた検証実験はあるだろうか.――見てのとおり,もちろん存在しない.これは,科学の別のやり方だ.既に存在する世界の事柄を,丁寧に分類・整理する.よく観察してみて,最も特徴的な面を探して分類し,それでもこれまでの分類に当てはまらなければ新発見とする.これは,仮説検証プロセスではない.自分が,あるいは先人が作った,未検証の学説を検証するためのプロセスではなく,自分より,そして仮説より先に存在していた事実を何とか客観的に取り扱うための,検証とは別のプロセスだ.これを,ここでは分類と発見の科学と呼ぼう.

分類と発見の科学は,研究者が知的活動を開始しようとする前に,既に事実が存在しているところから始まる.仮説検証のプロセスは「過剰な仮説と足りないデータ」という状態での営みだったが,分類と発見のプロセスは「過剰な現実と足りない法則」という状態を扱う.対象は豊穣な社会.生物や経済などの,もう動き出して止められない複雑なシステムだ.

分類と発見の科学も,仮説検証の科学と同様に,やはりビッグサイエンス化した.例えばヒトゲノム解読には,何千億円もの資金が投入された.複雑な現実に真っ向からぶつかるならば,資金も人員も潤沢に投入せねばならない.この考え方は,多くの人々の一塩基多型を調べるプロジェクトにも当てはまったし,ゲノムを大量に解析している現在にも当てはまる.大規模プロジェクトの結果は,いつも期待を裏切らず大量の新発見をもたらすのだ.

仮説検証の実験科学を第一の科学,分類と発見の科学を第二の科学と呼ぶとすると,第三の科学は仮説検証のバーチャル化,すなわちシミュレーションに相当する.第一の科学は確たる機械論的世界観を,第二の科学は秩序と発見をもたらしてきた.第三の科学は科学者の活動範囲を広げ,時間的にも空間的にも不可能な領域へのアクセスを可能にした.

分類と発見の科学もまた,計算機の中にも存在する.それは,仮説より先に存在する大量のデータを選り分け・整理し,法則を発見する,データ中心科学,あるいは簡単にデータマイニング,統計などと呼ばれる分野である.この第四の科学では,人間の目ではなくデータの特徴を使って,ゴミのようなデータの山を整理し,あわよくば一定の法則を抜き出して分類・予測を行う.こちらもまたシミュレーションと同じく,コンピュータの高性能化と共に飛躍的な進歩を遂げ,人間の直感の及ばない超高次元や大量データを難なく扱うことが可能になりつつある.

最近よく耳にするビッグデータでは,この第四の科学が中心的な役割を果たす.大量の,しかしそのほとんどが役に立たないビッグデータは,何らかの仮説を検証できるようなものではない.そうではなくて,大量の玉石の中から価値ある (かもしれない) ものを発見し,必要に応じて仮説検証に回すための,いわばネタ元なのだ.だから,ビッグデータからは何も分からない,という巷の説は正しい.分かるという単語を,検証された,という意味で使うならだ.だが,ビッグデータは無価値である,とはまるで言えない.何故なら,ビッグデータからは仮説,あるいは控えめに言うなら,仮説を構築するための洞察が得られるかもしれないからだ.

この文章の前半で,仮説が多すぎて検証が回らない話をしたのに,どうして仮説のきっかけになるビッグデータ解析,あるいはデータ中心科学が重要となるのか? もう仮説なんて十分ではないのか? いや,実際のところ,そうではない.何故なら,データ中心科学から得られる仮説は,データに基づいているだけに,追加のデータ取得が可能だからだ.加速器や国家プロジェクトを新たに作ることなく,そのデータが生成されたやり方に沿って追加でデータを取れば,すぐに仮説検証が可能なのである.

そもそもシミュレーションが必要になった理由は,仮説検証プロセスの多くがビッグサイエンス化し,検証が実質的に困難になったことが挙げられる.別の言い方をするなら,簡単に検証できる問題はかなり出尽くしており,とても困難な問題が山積しているのだ.

しかし,複雑な現実を慎重に観察すると,実は検証可能な未知の現象が残っていることがある.問題は,そんなお手頃な切り口をどうやって発見するか,ということだ.一見するとすごく込み入った事物の中からうまく問題の切り分けを行い,検証可能な仮説にたどり着く.これは科学者の仕事ではあるが,現代においては既に容易ではない.

ここで,データ中心科学の出番が来る.データ中心科学では,複雑な,絡み合ったデータから一定の法則を見出したり,他の因子の影響を排除して主要因を抽出したりするのが本領だ.だから,人間が直感で扱うには不得手なデータから洞察を得るには,とても有用なアプローチになる.しかも,その洞察が得られた根拠は元のデータにあるので,そのデータは,これから新たに大変な思いをして巨大な装置を作らなくても取得可能な種類のものだ.だから,もう煮詰まって諦めざるを得ないようなもつれ合ったデータから,後で検証可能な仮説を得るのには,データ中心科学は非常に強力なツールになる.

別の言い方をすれば,現在では,いい仮説が足りないのだ.だから,現実では検証が難しい仮説をシミュレーションで解析するのがひとつの主流になっている.しかし,本当に欲しいのは,現実世界で検証できる,ちょうど程よい難易度の仮説だ.データ中心科学はそれを提供できるから,急速に勢いを増している.仮説が多くて検証できるデータが足りない時代から,データがあふれていて仮説が不足している時代になった.もはや,計算速度の進歩よりもデータの蓄積速度の方が大きいことは疑いようもなく,未整理の情報が大量に出回り,価値が見出される前に野晒しのまま次々と山積みになるトレンドは,今後いよいよ加速するだろう.経済学風に言うなら,希少性がデータから仮説に移ったのだ

さて,この流れは化学の世界にも来るかもしれない.

化学は,その機械論的世界観から,仮説検証のプロセスを主軸として発展してきた.自分の仮説を検証するために,雑物を排除したフラスコの中で純粋な物質を混ぜ合わせ,思い通りの物が作れるというのは,何と知的好奇心をそそることであろうか.化学こそ,自力で仮説検証を繰り返せるという点で,最も科学者的満足感を満たせる分野かもしれない.だからこそ,化学は仮説検証という第一の科学の分野として発展してきたのだった.

コンピュータの発展とともに,化学分野でのシミュレーションが盛んになったのも自然なことだろう.仮説検証の実験科学を補うのは,バーチャルな仮説検証としてのシミュレーションだからだ.様々な条件でシミュレーションが行われ,時代を追うに連れて計算は大規模化した.現代の大型計算機の主要な用途の一つは,分子シミュレーションだ.ここでは,何万もの原子がお互いの影響を受けてどういう動きをするかが詳細に計算されている.

しかし,だからこそ,その成功のゆえに,化学の世界では分類と発見のプロセスが軽視されている.機械論的世界観から出られないまま,他分野の発展から取り残されている.既にある現実・蓄積されたデータをうまく生かせないまま,化学反応や物質移動の法則のみに頼った取り進めを延々と続けているのだ.

いま我々は,データを駆動力とした化学を考えている.

他分野で目覚しく発展しつつあるデータ中心科学の技術と,企業内に蓄積された膨大なデータ.これは,爆発的な潜在力を有している.これまで見出されなかった物性の法則性,化合物空間の拡大,合成可能性.検証すべき適当な仮説が不足したタイミングで,データの保存コストが大きく下がったことで到来したビッグデータ時代.まさに,時代はデータ中心科学を軸に動き始めている.この好機を生かし,これまでの化学を大きく変え,我々は新たな形で社会に資することを目指している.



いいなと思ったら応援しよう!