製薬×データサイエンスMeetup2024 参加記録
先日、以下のイベントにオンラインで参加した。
過去に創薬研究に携わっていたこともあるし、別分野ではあるもののドライ業務に携わっていることもあって、本イベントへの参加を決めた。
非臨床研究のみならず、CMC や営業などでの活用事例も紹介されており、創薬に携わる全ての人がデータサイエンスに関与できる可能性を提示している点が、とても意義深いと思う。それぞれの立場でデータサイエンスを通じて提供できる価値があり、研究者の間でもいまだに抽象的な文脈で語られがちなデータサイエンスを深堀りする貴重な機会になったのではないかと思う。
その中でも、個別の企業の演題に関する話は避け、業界横断的な話を具体的な感想として述べてみたい。なお、Meetupの全体像に関しては、以下の記事が公開されているので、こちらをご一読いただくと良いと思う。
クラウド環境への移行
オンプレミスサーバーを持たずに、クラウド環境を用いて計算環境を整備することはどの企業も精力的に取り組んでいるようであった。計算環境に障害を与えてしまったら環境ごと壊してしまうなど、Docker コンテナと同じようにスクラップアンドビルドの精神で対応できるのがやはり魅力だろう。特に AWS がメイントピックだったが、各社ともに各サービス(RedShift, API Gateway …)などをうまく使いこなしている印象で、AWS アーキテクチャの組み方などが特に気になった。このあたりはユースケースを知識として蓄えながら、「こういう計算環境を実現したいとき、自分ならどうやってアーキテクチャを組むだろうか?」という思考実験を積んでみるのが良いかなと思っている。
生成AIをいかに業務で使いこなすか?
論文や特許などの公開情報を効率的に収集し要約することは、いかなる研究課題であったとしても重要なタスクになるだろう。特に創薬の分野では、ChatGPT のように汎用的な生成AIを使うに限らず、用途特化型の生成AIにも注目が向けられている。例えば、Google Cloud が所有している Med-PaLM は、医療機関向けの生成AIとして知られている。増えゆく生成AIのサービスの全体像を捉えながら、自分の研究課題に対してどんなサービスが使えそうか、考えることが必要だろう。
また、生成AIの使いこなし(いわゆるプロンプトエンジニアリング)をうまくやっている印象も受けた。実はあまり学習してこなかった領域ということもあり、これを機に少し勉強しなければと思っている。
いかにメンバーに使ってもらうか?
会社に所属する非IT系所員に対して使ってもらうために、UI の作り込みは避けて通れない。私も社内では似たような立場にいることもあり、いかに噛み砕いて説明するかを重視している。せっかく作ったインフラを使ってもらえないのが一番悲しい。独りよがりなシステムにならないように、関係者と要件定義を密に議論したり、UI の改善に力を入れたり、と泥臭いがそういった努力が欠かせないと思うのだ。自分がこの手のシステムの取り扱いに苦労していた時期があるからこそ、そういったメンバーに寄り添っていける人間でありたい。
自分はデータサイエンスで何がしたいか?
分子生物学の研究者としての自覚を持ちながら、データサイエンスの領域に身を置き始めたことには明確な意思がある。「データがあったとしてもそれを有効かつ効率的に活用できていない」現状を目の当たりにして、単刀直入に勿体ないと思ったからだ。過去データの俯瞰・比較を容易にしたり、データから新たな観点・特徴量を抽出したりすることは、研究を推進させるうえで十分に意味があることだと思う。
データサイエンスに取り組むうえで大切なのは、たくさんデータを集めて、それを崇高な解析にかけることではない。データから価値を見出すことだ。そのためなら手段はいくらでも考えられる。私も実績を作ることができるように邁進したい。