大規模言語モデル(GPT)とロボット研究を用いて、化学・材料研究はどう変わるか・何をすべきか?

Kan Hatakeyama

2023年4月16日 18:11

概要

本稿では、AI・ロボットによって化学・材料研究がどのように変わるか、何をなすべきかについて、筆者の考えを記述しています
合理性を追求していくと、実験研究の大半はロボットで自動化され、AIによる自律的研究が進み、結果がリアルタイムで世界に共有されることになるはずです
そのような社会をいかにして実現するか、技術・学術的課題を考えるフェーズに入っているように思います

執筆の経緯

Ideas are cheapとオープンサイエンスの精神に基づき、考えを公開することにしました
やりたいことをオープンにすることで、共感して、協力してくれる(優秀な)方に出会える可能性を高めたいと思っています
- 筆者は実験系が専門のため、AI・ロボットの制御能力があまり高くありません。AI・ロボットに詳しい方、是非お声がけください!
- うまく展開すれば、国プロ獲得はもちろんのこと、ベンチャー企業を
  何社も立ち上げて、大金持ちになれるかもしれません(…?)

筆者について

畠山と申します
23年4月現在、32歳です
一応、いくらかの実績のある研究者ということになっています
- 科研費の基盤B、JSTの創発などを研究代表として頂いております
- 原著論文は40報くらいです

はじめに

工学とは誤解を恐れずに言えば、楽をするための学問です。なので、AIやロボット技術を駆使して、「研究で楽をするために、研究する」行為も、正当化されるはずです。こうした考えもあり、博士号を取得してから5年間、早稲田大学でマテリアルズ・インフォマティクスの研究をしていました。そして23年4月から、思い立って東京工業大学に異動しました。
新天地に移るのとほぼ同じタイミングで、GPT-4という驚きの技術が登場しました。なので、そろそろ本気で研究を自動化してみようという気になっています。

背景: 化学・材料研究の流れと自動化の余地

化学・材料研究のスキーム

化学・材料研究(実験系)の主なスキームは以下の通りです。

研究に必要な基礎知識・能力のトレーニング
1. 基礎知識を修得する(e.g., 学部教育)
研究トピックに関する関連情報の収集
1. 文献調査
行うべき研究テーマの選定
1. 収集した情報に基づいてまだ明らかになっていないテーマを抽出する
2. 1.のうち、学問的に意義深く、かつ実現可能性の高いテーマを選ぶ
小課題の策定
1. テーマを解決するための小課題を設定する
  1. 文献データや実験を通じて得た情報をドメイン知識として活用しながら作業する
2. うまく行かなかった時の迂回ルートも必要に応じて準備する
実験計画の策定と実施
1. 小課題を遂行するための実験計画を策定する
2. 実験を行う
ループ
1. テーマの完了基準を満たすまで、4-5を繰り返す
2. 必要に応じて、テーマそのものを変更する(3以前に戻る)

上記のスキームのうち、太字部分(実験を行う)以外は、知的タスクです。なので、「一定の推論能力」を有するAIであれば、原理的に代替可能なはずです。

GPT-4の推論能力

これまでのAI(GPT-3以前)は、「一定の推論能力」を持っているとは言い難い状況でした。しかしGPT-4は完璧ではないにせよ、「一定の推論能力」を持っていると考えても差し支えない、と言える水準に達したと筆者は考えています。
例として、「1 mLの容量しかないピペットを使って3 mLの試薬を移す」という作業を考えます。推論能力を有する人間であれば、「1 mLしか入れられない」→「吸う・出すという作業を3回繰り返す必要がある」という演繹を行うはずです。
GPT-3.5までのモデルは、上記の推論が苦手でした。そのような指示を出しても、「1 mL分の試薬しか移動してくれないプログラムコードが出力される」ことが多々ありました。それに対してGPT-4は、こうした推論が可能です。GPTを介して、ロボットアームを自然言語で容易に操作できるようになしましした。

GPT4 によって自然言語でロボットアームの動きとピペット操作を制御。将来は「試薬入れて」・「○○を合成して」と丸投げしても、いい感じに動いてくれる予感。ロボット化学者の未来が見えてきました　#ChatGPT #GPT4 #自動実験　 #AI pic.twitter.com/3NpfndQJ46
— 畠山　歓　Kan Hatakeyama (@kanhatakeyama) April 1, 2023

一定の推論能力を有するAIは、自律的に行動できるようになります。生成したコマンドを自分自身で再帰的に実行することで、複雑な知的タスクを解くことが可能です。23年4月時点では、AutoGPTが話題です。

AutoGPT使ってみたけど強すぎる。
ファイル操作やWeb ブラウジングに加えて長期記憶も対応してるから、これ使いこなしたら本当にアプリがあっという間に形になりそう。
動画はそれをさらに使いやすくしたAgentGPT。#AutoGPT pic.twitter.com/QOn5wMTcPT
— ちゅーりん🌗 (@churin991116) April 12, 2023

一定の推論能力を持つAIであれば、上述の「化学・材料研究のスキーム」も自動化できる可能性があります。もちろん、推論能力の限界を始めとする、諸々の技術的課題は存在します。しかしAIの進歩は著しいため、いずれ(恐らく10年以内?)は概ね解決するであろうという、楽観的な予測を著者は持っています。また、現行のAI能力が不十分であっても、推論のフレームワークさえ作ってしまえば、中のAIを先端のものに入れ替えるだけでバージョンアップを行えます。

解くべき学問・技術的課題

化学・材料研究を自動化するにあたり、解くべきタスクは多数存在します。著者自身も全てをカバーできていないません。主な課題について記します。

自律研究システムのフレームワーク構築

上述の研究スキームを自律的に遂行するための再帰的な推論システムが必要です。AutoGPTのような自律システムを、研究用に拡張・チューニングする必要がありそうです。23年4月16日時点で、筆者がまだこの領域にタッチできていないので、これ以上の詳細は書けません。詳しい方がいれば、教えてください。
足掛かりとなるのは、コンピュータサイエンス分野での先行研究と思われます。性質上、大半の研究がコンピュータ内で完結するので、システム構築や検証の難易度が実験系よりも下がります。この領域で得られた成果を輸入する形になりそうです。

文献データの参照・推論システム

研究を遂行するためには、関連するテーマの先行研究や実験データを収集する必要があります。そこで得た情報をもとに、適切な実験計画の策定や結果の考察を行うことができます。この作業を自動化する必要があります。
技術的な課題は幾つかありますが、最大の問題点は、GPT-4のような大規模言語モデル(LLM)に文献データを追加学習させるのが難しいということです。LLMが大量の文章データを学習させた上で動作していることを踏まえると、この指摘は一見、矛盾しているように見えます。しかし現状ではLLMの学習コストが極めて高いため、ユーザーが独自に準備したデータを追加学習(ファインチューニング)するのが困難な状況です。実際、執筆時点でGPT-4は追加学習に対応していません。chatGPTとの会話が「常に初対面」から始まってしまうのも、この問題に起因しています。
追加学習の課題に対する解決策として、過去の入力(プロンプト)データの圧縮や、文献検索システムとの連動が考えられます。前者は、chatGPTとの対話ログを要約して覚えさせる作業に対応します。後者は入力(クエリ)と類似度の高い文献データを検索して、その情報だけをプロンプトに載せるアプローチです。これで一件落着、と言いたいところですが、GPTがユーザーの文献データを全て学習している訳ではありません。なので、「文献A,B間の隠れた共通点を見つける」ようなタスクを解くことが難しい状況です。
ファインチューニングが出来ないのはハードウェアの制約であり、ハードウェアは進歩に時間がかかるので、GPTの記憶容量問題は当面の課題となるはずです。うまい対応策を見つけ出す必要があります。
LLMに詳しい、気鋭のコンピュータサイエンティストを探しています!

研究室のデータを検索するgptシステムが一応完成｡出典文献もダウンロード可｡問題点①GPT3.5の理解能力が不十分(回答がオカシイ) ②embedding生成に意外とお金がかかる｡日本語1万字≒180k token = $0.36 ≒ 50円｡ #GPT4 で本格運用したいところ｡しかしGPT4は値段も高い｡ pic.twitter.com/votw1vLgQq
— 畠山　歓　Kan Hatakeyama (@kanhatakeyama) April 14, 2023

実験結果の予測や提案

適切な実験計画を立てるためには、結果を予測する必要があります。実験条件は無数に存在するため、ランダムな試行をするだけでは、所望の結果を得るまでに天文学的なコストと時間を要する恐れがあります。一方、実験結果を予測するのはとても大変です。実験結果を上手く予測できないからこそ、世界中に無数の実験科学者が存在し、日夜、試行錯誤するわけです。
AIやデータ科学によって実験結果を推測するのが、ケモ・マテリアルズインフォマティクスという学問分野の大きなミッションです。学問分野が存在するということは、研究する価値がある≒それだけ予測が難しいということです。詳しい理由は割愛しますが、AIは自動運転のような「人間にできること」の代替は得意だが、株価予測のような「人間にできないこと」の代替は難しい状況とよく似ていると思います。
GPTのような知的なAIが、予測・提案タスクを行える可能性があります。熟練の研究者の予測はわりと当たります。膨大なドメイン知識を持っているからです。上述した文献データの参照・推論システムを使って、ドメイン知識を自動収集すれば、何かが起こるかもしれません。
伝統的なケモインフォマティクスもモデルを使わずとも、GPT-4のみで、one-shot learning、explainable AI、そして不確定性の提示という、高度なタスクを実行できることは分かっています(こちら)。

AIが学習していない研究レベルの問題にも、推論を駆使して正解。もはや多くの大学生や下手な化学予測モデルよりも賢い印象。数多の研究論文も学習させたら、大半の研究者も追い抜く予感。頭が追いつかないです。#ChatGPT #GPT4 #化学 pic.twitter.com/DPPm4cmt9c
— 畠山　歓　Kan Hatakeyama (@kanhatakeyama) April 4, 2023

Pythonを使った自律的な回帰分析ももちろん可能です(こちら)。

#GPT4 に解析を丸投げさせるケース。わりと自律的に動く。しかし質問数の最大制限に達してしまった。 pic.twitter.com/Q8qNUssmFb
— 畠山　歓　Kan Hatakeyama (@kanhatakeyama) April 12, 2023

GPT-4の自律的な文献収集・推論能力と、伝統的な回帰・分類モデルが相乗効果で動いた時のインパクトは計り知れません。
今後に解明すべき、興味深い課題の一つです。

化学・材料実験の自動化

化学・材料実験の推進には、多くの雑多な作業が伴います。例えば何か化合物を合成する際は、粉末の収集、固体の添加、液体の滴下、攪拌、加熱、脱気、脱水、蒸発、溶媒除去、分液、カラムクロマトグラフィー、濾過などの実験操作を伴います。合成したサンプルを分析する際も、サンプルの成形加工や装置への組み込みといったプロセスが存在します。これらを全て自動化する必要があり、とても大変です。
それでは、自動化が不可能かと問われると、答えはNoです。自動化は可能です。化学プラントや化学工場では、殆どの作業が自動化されています。ラボスケールで自動化が殆ど行われていないのは、ひとえにコストの問題であると著者は考えています。例えば自動合成装置などが販売されているものの、一台あたりの値段は数千万円～が普通なようです。カスタマイズも難しそうです。某社が販売している小型ロボットアームも、数百万円はかかります。アームの制御プログラムを書くのも、ハッキリ言って面倒です。

しかし、23年に入って状況が変わりました。先述の通り、GPT-4という推論能力を持ち、かつプログラムコードを一瞬で出力可能なAIの登場により、自然言語でロボットアームを操作できるようになりました。落合陽一さんの「デジタルネイチャー」における、「チューリングマシンオブジェクト（TMO）と言語オブジェクト（LO）間のシームレスなインタラクション」が可能になった状況と言えるかもしれません。
また、アーム・IoT器具類も安価です。
おもちゃのロボットアームは1万円以下で販売されています

Bluetoothに対応したマイコン・電池入りも数千円で購入できます。

モーターと組み合わせれば、Amazonの配送工場のように、ビーカー類を移動させることも出来そうです。必要な器具は3Dプリンタで作れます。

このオレンジのにはいろんなものが詰まっているのでスマホで制御もおてのもの。#Blynk #M5StickC #M5stack #ESP32 pic.twitter.com/WZvzeURQDh
— HomeMadeGarbage (@H0meMadeGarbage) June 15, 2019

つまり、数万円程度の低コストで、自動実験を行うシステムを構築する環境が整っているという訳です。プログラミングの課題も概ね解決しました。あとは、ロボットが得意な研究者と組むだけというフェーズであるように、筆者には思われます。
蛇足:　大半の実験器具・装置は人間用に設計されているので、ロボットに対してもバリアフリーな設計を考え直す必要があります。

自動化の意義と恩恵

科学研究や実験を自動化する分かり易いメリットは、人材不足への対応や、研究開発サイクルの加速です。日本の科学技術産業や少子高齢化の現状を鑑みると、これだけでも十分な価値があります。学術的な観点でも、自律型AIとロボットの導入により、研究の質的転換を起こせる可能性があります。主なポイントは以下の通りです。

再現性の向上と情報の信頼性担保

プログラムコードはいつ・誰が・どこで走らせても、基本的に同じ結果が返って来ます。一方、手作業での実験結果は、実行する時間・人・場所によって、大きく変わることが多々あります。もちろん、再現性があるという建前で論文は投稿され、科学コミュニティに共有されます。しかし実験はアナログな箇所が多く、他グループの結果を再現できないという事態が多発します。試薬の劣化、作業者毎の実験操作の微妙な違い、実験装置の違いなどが主な要因です。液体を垂らすタイミングが秒単位でずれるだけで、デバイスの性能が変化してしまうというエピソードはしばしば聞きます。
本質的な解決策は、一連の実験操作を自動化し、かつ徹底的に記録することです。つまり、ロボット実験です。行うべき作業を予めプログラミングコードとして書き下し、規格化された装置で操作を行えば、少なくとも属人性の問題は解決されるはずです。また、実験時の気温・湿度、試薬の開封日といった細かな情報を全てデジタル記録し、科学コミュニティで共有することも容易になります※。ロボット実験により、実験操作をプログラミングというフレームワークで考えられるようになります。プログラムコードはAIによって自動生成されるので、研究者がプログラマである必要はありません。

※通常、学術論文には実験日や気温・湿度といった細かな情報は全て省略されます。この現状を打破するため、電子実験ノート(ただし実験は手動)システムを提案したこともあります(こちら)。

人間を凌ぐ分析・考察力を持てる可能性

現行のAIは汎用人工知能(AGI)ではないため、解けるタスクが限定されています。しかしGPT-4はそれなりの推論能力を有しています。そして、人間を遙かに凌ぐ処理速度と情報収集力を有しています。ヒトが1万本の論文を読み込むには数年以上を要するかもしれません。もし読んでも大半の中身は忘れます。他方、AIなら恐らく数分程度で論文を読み込めますし、情報蓄積は不可逆的です。なので、原理的には「人間よりも物知りで、過去情報に基づいて的確な考察ができるAI」を作ることができます。GPT-4の推論能力で、これが達成できるかもしれませんし、GPT-5以降のどこかのタイミングで、ほぼ間違いなくそうなります。「情報の記憶と考察」というのは、時間と労力をかければ遂行できるタスクです。この種のタスクはAIによる代行が原理的に可能で、GPT-4の登場によ、「考察」を代行する素地が生まれました。

現場のノウハウや暗黙知の蓄積

5-10年ほど前から盛り上がっていたAIブームの中で、特に化学・材料系の人間が期待していたことは、「現場で蓄積されるノウハウや暗黙知のAI集積」でした。例えば引退寸前の熟練の技術者だけがもっているノウハウを、恒久的なデジタルデータとして残せるのではないかという予感がありました。もちろん、一部の成功事例はあるかもしれませんが、恐らく多くの方の率直な感想は「期待外れ」ではないかと思います。
従来のAIでノウハウや暗黙知の蓄積が上手くいかなったことには(ほぼ)明確な理由が存在します。それは、従来のAIが抽象的で雑多な情報を扱うのが苦手だったということです。多くのAIは画像や表形式の構造化データを入力とします。しかしノウハウや暗黙知というのは、Excelのセルに入力して纏められる類いの情報ではありません。自動翻訳などに使われる言語処理モデルは存在しましたが、あくまで単純な翻訳作業などに特化しており、十分な推論能力を有していなかったため、「雑多な情報」を上手く扱えなかったと言えます。しかし、GPT-4は雑多な情報から重要なエッセンスを抜き出すことができます。ノウハウや暗黙知を記憶し、適切なタイミングで取り出す潜在力を有している訳です。
「ノウハウや暗黙知は研究現場で得られるものであり、必ずしもテキスト化されていない」という反論が考えられます。しかし筆者の考えでは、研究現場のデータの大半は、デジタル化可能です。例えば日々のディスカッションは全て音声データとして記録し、AIを使ってテキスト化する技術が確立しています。目で見たモノについてはどうか?まだ一般公開されていないものの、GPT-4は画像認識が可能なマルチモーダルモデルです。実験時の様子を全て動画で記録すれば、AIが認識してくれます。人間と違い、忘れることもありません。

科学コミュニティにおける情報共有システムの変化

(査読システムの限界)
AI・ロボット駆動の実験により、科学コミュニティにおける情報共有の在り方が不可逆的に変わる可能性が高いです。賛否両論あるかもしれませんが、論文の査読システムがどこかのタイミングで「消失」する可能性もあります。査読とは、学術雑誌に投稿された論文を編集者や関連研究者が審査し、質を担保するシステムです。Natureのような一流紙では、極めて厳しい審査が行われます。
しばしば指摘されることですが、査読システムは限界を迎えつつあります。まず第一に、投稿される論文の数が多くなりすぎ、査読(ボランティアです)の負担が過大であるということです。Natureに投稿される未公開の論文は査読してみたいと思うかもしれませんが、「些細な成果」が記載された論文を査読するのは、一般に苦痛を伴う作業です。多忙な研究者の場合、査読に必ずしも十分な時間を割くことができません。第二に、論文には基本的に「失敗データ」が報告されません。解釈が難しい失敗データは査読時、ネガティブに映るため、敢えて報告する動機が沸かないからです。

(失敗データの重要性)
しかし失敗は科学コミュニティにとって重要です。エジソンが「失敗ではない。うまくいかない1万通りの方法を発見したのだ」と主張したように、本来は「うまくいかない条件」を世界中で共有すべきです。こうした情報の目詰まりは、人類全体としての生産性を下げています。
査読には膨大な時間がかかるという点も大きなボトルネックです。某N誌では投稿からアクセプトまで1年以上かかることが頻繁にありますし、普通のジャーナルでも数ヶ月はかかります。遅いです。

(将来の科学コミュニティ)
情報の目詰まりの原因となる査読システムへの処方箋の一つは、データ科学分野で行われているような情報共有法です。特にAI系は進歩と技術の陳腐化が目まぐるしく、査読後の情報公開では明らかにスピード感が足りません。そこで登場したのがarxivなどのプレプリントです。しかしプレプリントを書く暇もないということで、オープンソース分野ではGithubのような公開レポジトリに、リアルタイムで検証結果をアップロードしたりすることもあるようです。実験研究の分野においても、AIやロボットによって研究が加速するにつれ、情報共有が上記のようなスキームに移行せざるを得ない状況に追い込まれるはずです。
もちろん、査読というシステムによって情報の質が担保されるという意見もあります。しかし上述のように、査読システムが制度的な限界を迎えていますし、「怪しい論文」が世の中に跋扈しているというのは、多くの研究者の知るところです。限られた時間・査読者数で、研究内容を完璧にチェックすることは実質的に不可能です。
他方、コンピュータサイエンス分野では、研究不正や「不誠実なデータ」の報告が起こりにくくなっています。プログラムコードさえあれば、世界中の誰もが(原理的には)実験を即座に追試できるからです。このような透明性の高いコミュニティの構築が、自動実験とIoT化によってもたらされる可能性があります。実験結果に関わる重要プロセスを完全に制御・記述できれば、化学・材料実験の類も実質的に「プログラミング」と同等になるからです。
すなわち、AIやロボットを活用した研究活動により、実験分野においてもリアルタイムで研究結果を世界と共有するコミュニティが生まれる可能性があります。(注:　当然ながら、知財が絡むような研究成果については、別途方策を講じる必要があります)

(AIによる論文システムの変化)
AIによる論文執筆を禁止するジャーナルが出てきたようです。しかし長期的には論文執筆は基本的に、AIの仕事になると考えられます。科学コミュニティにとって最重要な情報は生の実験データです。それに付随する考察が書かれていなくても、誰かが後から推察することはできます。しかしその逆は不可能です。そして、生の実験データは上述の通り、リアルタイムでGitHubのような公開レポジトリにアップロードすれば良い訳です。言い換えると、論文というのは、「実験結果を人間の頭で理解しやすいようにA4で数ページ程度にまとめた概要書」に過ぎません。必ずしもAIにとって必要な情報ではないように思われます。
既にプロトタイプが沢山出ていますが、最近の自然言語モデルは何かを要約するのが得意です。論文のresults and discussionは実験結果の要約ですので、AIに書かせることが出来ます。Introducitonは既知研究の要約ですので、もちろんAIが書けます。Abstract、Conclusionも同様です。要するに、論文執筆というのは「時間をかければ出来る」(=AIで代行しやすい)タイプの知的タスクです。
恐らく、ここ10年以内くらいに、論文を書くという作業の意味を疑問視する研究者が増えると予測されます。Natureのような格式あるジャーナルでは引き続き、「伝統工芸品」のような形で、手書きの論文が好まれるかもしれません。中堅以下のジャーナルでは、コスパ・タイパ重視で進めて行きましょうという流れになるはずです。因みに査読タスクも、「過去文献と本研究の新規性比較、抜けている点のチェック」ですので、これを(全)自動化するシステムが近々、出てくるはずです。

(将来:　速報誌が消失し、1000ページの論文が主流になる?)
そもそも、論文というフォーマットが時代にそぐわなくなる可能性があります。GPT-4は論文をかなりの高精度で読み込めます。自分で論文を読む代わりに、論文概要や聞きたいことをGPT-4に聞けば良いだけです。

最近出した論文https://t.co/EYKCBQEo84を　#GPT4 に学習させたら、正確に理解しており衝撃。速度・精度ともに私の能力を超えている模様。予測根拠もプログラムを組めば明示可能。ボトルネックは、GPT4のAPIが未公開(申請中)&恐らく高価な点 pic.twitter.com/hSvzrWsEhl
— 畠山　歓　Kan Hatakeyama (@kanhatakeyama) April 9, 2023

GPT-4は論文に書かれていない基礎知識についても回答してくれますし、細かなデータについても説明してくれます。研究を行った本人とディスカッションをしている気分です。普通に論文を読むよりも、遙かに効率良く、情報収集ができます。

まだベータ版ですが､全世界の論文を検索 & 要約するAIサービスも登場しました｡

全世界の論文を検索 & 要約するAI「Consensus」がすごい。

・質問への回答を一文要約
・回答へのコンセンサスを数値化
・文献が正確
・重要な論文を優先（レビューや高頻度の引用）

「科学を全ての人にアクセスしやすく、消費しやすいものに」というミッションが革命的。https://t.co/8AMLu7S0Pp pic.twitter.com/WSbb9cPtWS
— Dr. すきとほる | 疫学専門家 (@iznaiy_emjawak) April 16, 2023

もしこのような論文読解がスタンダードになるとすると、論文に記載すべき内容が大きく変わります。情報は多ければ多いほど回答の精度が高くなりますので、ありとあらゆるデータ・考察を入れておきましょうという話になります。ページ数が2枚ほどしかない速報誌よりも、1000ページの大論文の方が遙かに有益です(※自分で読む必要はありません)。1000ページも論文を書くのは大変ですね。では、AIに代筆させましょう。もし速報誌にしたければ、2ページに要約(不可逆圧縮)して貰うだけです。

おわりに

GPT-4のような推論能力を持つAIが登場したことで、大半の知的タスク(時間や労力をかければ出来ること)は自動化できることが示されました。この激動期に、何か面白い研究をしてみたいと思いませんか?是非お声がけください!