GPTを用いた分子物性予測の可能性

※筆者の主観と独断に基づくpromptからGPT-4が自動生成した記事です。不正確な内容が多々含まれる可能性があるので、ご了承ください。

本文

タイトル: GPTを用いた分子物性予測の可能性

近年、ケモインフォマティクスやマテリアルズ・インフォマティクスといった分野が注目されています。これらの分野では、分子や材料の物性(融点など)をデータ科学やAIを用いて予測する手法が数多く存在します。今回は、GPTを使って分子物性予測が可能かどうかについて検証しました。

関連するtweetはこちらです。 https://twitter.com/kanhatakeyama/status/1643379521121554433

まず、トルエンのような一般的な化合物については、GPTが既に学習済みであるため、「予測」ではなく文献データの引用しかされません。そこで、マニアックな問題として、「テトラメチルピペリジン N-オキシル」(TEMPO)という化合物の酸化還元電位を聞くと、GPTは文献データを学習していないため、「分からない」と回答します。これは想定内の結果です。

次に、TEMPOの電位(0.6V)を覚えさせた上で、「4-シアノTEMPO」というTEMPOのシアノ誘導体の酸化還元電位を聞いてみました。GPTは、「シアノ基が付いているため、電位が0.7程度にプラスにシフトするが、自信がない」と回答しました。実際の電位は0.7V程度であり、驚くべき正確さです。

この結果から、GPTの以下の点が特筆されます。

  1. たった一件のデータを学習しただけで予測ができる点(one-shot learning)。通常、ケモインフォマティクスでは数百から数万件のデータを学習させる必要があります。

  2. 予測根拠を正しく示した点。これまでAIの「ブラックボックス予測」が大きな問題とされていましたが、GPTはその問題を自動的に解決しています。

  3. 予測の自信のなさが示されている点。AIが嘘をつく問題も、ある程度解決されています。

筆者の経験上、従来のケモインフォマティクスやマテリアルズ・インフォマティクスの物性予測モデルは、実際の実験研究者にとってはあまり当たらないことが多く、必ずしも活用されていない状況です。しかし、GPTを用いた予測では、予測精度・根拠の提示・自信のバランス、そして実装のしやすさを考慮すると、従来の手の込んだ研究モデル群と同等(以上?)の性能を示しているように感じられます。

ただし、課題も存在します。GPTは新しいことを覚えるのが苦手であるため、「多量の化学データをGPTに学習させて推論」というタスクを素直に実装するのはチャレンジングな課題です。

また、分子・材料構造の表記・認識法にも課題があります。現在は化合物名として扱っていますが、従来は分子の場合はSMILESという暗号のような文字列や多次元ベクトルで構造を記述することが多かったです。これらを現状のGPTに直接認識させるのは困難でしょう。

このような状況から、今後1~2年は、従来のケモ・マテリアルズ・インフォマティクスのツール群を自律型GPTに使わせる研究がメジャーになると推測されます。GPTを用いた分子物性予測はまだ始まったばかりですが、今後の発展が期待されます。

参考: prpompt

以下の筆者のメモを技術系のテイストのblog記事に纏めてください。ですます調で。ロジックの抜け・飛躍、そして未定義の専門用語が多くあるので、懇切丁寧に補足してください。メモの内容は網羅してください

topic: GPTに分子物性を予測させる話

背景: ケモインフォマティクス、マテリアルズ・インフォマティクスと呼ばれる分野がある。分子や材料の物性、例えば融点などをデータ科学やAIで予測させたりする。そのための手法が多々存在する。

今回: GPTにそれができるかを検証した。関連するtweetは下記
https://twitter.com/kanhatakeyama/status/1643379521121554433

試したこと1: トルエンのような基本的な類の化合物は既に学習済みのため、「予測」ではなく文献データの引用しかされない。そこで、マニアックな問題として、「テトラメチルピペリジン N-オキシル」(TEMPO)という化合物の酸化還元電位を聞く。すると、文献データを学習していないので、分からないとの返答。ここまでは想定内
試したこと2: TEMPOの電位(0.6V)を覚えさせた上で、TEMPOのシアノ誘導体である「4-シアノTEMPO」の酸化還元電位を聞いてみる。普通に聞くと、「分からん」と言われるので、とにかく具体的な値を出せと指示する必要あり。
返答は、「電位求引性のシアノ基が付いているので、ちょっと電位がプラスにシフトして0.7。ただし自信ない」 という感じ。正解は0.7程度なので、ご名答

どこがすごいか: 

  1. たった一件のデータを学習しただけで、予測ができた点(one-shot learning)。普通、ケモインフォなどでは数百から数万件程度のデータを学習させる必要あり

  2. 予測根拠を(少なくとも今回は)正しく示した点。AIの予測根拠が分からない「ブラックボックス予測」がこれまで大きな問題とされており、色々な研究があった。が、GPTはそこら辺の問題を自動的に解決していた

  3. 予測の自信のなさが、一応は示されている点。AIは平気で嘘をつくのが問題だが、それも少しは解決

意義: 少なくとも筆者の経験上、ケモインフォマティクス、マテリアルズ・インフォマティクスの物性予測モデルはあまり当たらない(!)ことが多く、実験研究者にとってはそこまで活用されていない。
予測精度・根拠の提示・自信のバランス、そして実装のしやすさを考えると、もはやGPTが従来の、手の込んだ研究モデル群と同等程度(以上?)の性能を示しているようにも感じました。

課題: 下記の記事などで書いた通り、「GPTは新しいことを覚えるのが苦手」なので、「多量の化学データをGPTに学習させて推論」というタスクをnaiveに実装するのはチャレンジングな課題
https://note.com/kan_hatakeyama/n/nd62c5eb19bca

分子・材料構造の表記・認識法も課題。現在は化合物名として扱っている。従来は、分子の場合はSMILESという暗号のような文字列や、多次元ベクトルで構造を記述することが多かった。が、これらをnativeにGPTに認識させるのは恐らく現状では困難。

となると、ここ1-2年は、従来のケモ・マテリアルズ・インフォマティクスのツール群を自律型GPTに使わせる研究がメジャーになると推測される

この記事が気に入ったらサポートをしてみませんか?