オンコロジーにおけるAI:臨床的な多才さ | がん治療の未来(スタンフォード)
8,278 文字
みなさん、こんにちは。今日はヘルスケアと病院におけるAIについて、特にがん治療と人工知能に焦点を当ててお話ししていきます。ここでは、医療臨床研究におけるマルチエージェントAIシステムを適用していきます。今日は医療におけるAIに関する12の新しい研究が発表されましたので、早速本題に入っていきましょう。
まず、より信頼性が高く、より正確な診断を確実にするマルチエージェント臨床システムの基礎となるマイルストーンについて見ていきます。また、将来の病院がAIとどのように組み合わさって、患者レベルの診断と集団レベルの知見を組み合わせて、より良いヘルスケアシステムを作り出せるかについても見ていきます。
ここで、4つの特定のAI研究を紹介させていただきます。1つ目は、メリーランド大学による「マルチエージェントを用いた知識拡張による臨床試験患者マッチング」です。次に興味深いのは、GoogleのDeepMindによるものです。Googleは現在、病院向けAIシステムを構築する開発者のために、特定の基盤モデルを提供しています。
Googleはここで、ヘルスケアAI開発者基盤モデルを導入しています。これは、事前学習された領域特有の基盤モデルと、ヘルスケアアプリケーション向けの機械学習システム構築を加速するためのツールやレシピのセットです。放射線科のX線、コンピュータ断層撮影、病理組織学、皮膚科画像、音声など、さまざまなモダリティと領域をカバーしています。Googleが病院向けの特定のモデルを提供しようとしているのは非常に興味深いですね。
しかし、私が皆さんの注目を集めたいのは、今日発表された次の2つの研究です。1つは「次世代医療エージェントに向けて:OpenAI One が純臨床医療シナリオにおける意思決定をどのように再形成しているか」というものです。ジョージア大学、アルバータ大学、オースティン大学、インディアナ大学、テキサス大学、マサチューセッツ総合病院、ハーバード医科大学、メイヨークリニック、コロラド大学、そしてジョージア大学が参加しています。
もう1つは、スタンフォード医科大学による非常に興味深い研究で、「人工知能は現実世界における実際の患者の懸念を反映した質の高い研究トピックを生成できるか」というものです。これら2つの研究には素晴らしい知見が含まれています。もしよろしければ、両方の研究論文を組み合わせて、全体的な内容を順を追って短い物語としてご説明させていただきます。
未来の病院に入ってみましょう。今日の医療研究におけるAIの最先端がどこにあるのか見てみましょう。ここには2つの世界があります。右側には個々の患者の世界があります。患者が夜中の2時に一人で目を覚まし、何らかの医療状態にあるものの、その時間帯に医師に電話することも病院に行くこともできないという状況を想像してみてください。
そこで今、多くの患者は自分の医療状態を記録し、病院の電子健康サービスに送信しています。一方で、従来型のアメリカの営利病院環境があります。そこではAIが病院の標準手順を学習し、個々の診断に関する専門家システムになっています。
質問は、これら2つをマルチエージェントシステムとして組み合わせることができるかということです。スタンフォード医科大学の論文で興味深いのは、患者からの50万通以上のメールや記録を分析したことです。特に、腫瘍科に送られた乳がんに関するものと、皮膚科に送られた約14万通の皮膚がんに関するメッセージの2つの特定のセットがありました。
私にとって興味深かったのは、スタンフォードが2013年から2024年の期間における実際の患者からの4,500万以上のユニークなメッセージにアクセスできるということです。患者が自分の医療状態を記録し、それを電子健康システムに記録するという uptake がこれほどあるとは知りませんでした。これは病院や大学が利用できる素晴らしいデータソースです。
もう一方では、もう1つのAI、L1と呼びましょう。このL1は、病院のICUという重要な環境で運用されており、数分が重要な症例を分けることになります。このL1は、リアルタイムの推論能力に優れており、患者が必要な瞬間に見過ごされることがないよう確実にしています。
では、2つのAIシステムを見てみましょう。患者の世界では、何百万ものメッセージが収集されるところで、L2と呼ぶ別のエージェントがあります。このエージェントには疫学的なセンチネルがあり、患者のメッセージのテラバイトをフィルタリングして、気付かれないパターンを見つけ出します。何百万ものメッセージの中から特定のパターンを見つけ出すのは、まさにAIシステムが輝く分野です。
一方、実際の診療科では、L1エージェントは臨床的な多才さを持つものとして、緊急の個別化された意思決定に動的に適応していく病院に組み込まれています。このAIは、病院のICUチームのメンバーとなるべきです。
両方の研究が異なるトピックに焦点を当てているのは興味深いですが、なぜ私がこの2つの研究を並行して紹介することにしたのか、簡単に理解できるでしょう。ちょっと立ち止まって何が起きているのか理解してみましょう。
このAIエージェントまたはL2エージェントは、全てのデータのクラスタリングと意味の解釈のための数学的な定式化を準備しています。このエージェントの核心は、人間の文章を取り込み、文章トランスフォーマーと専門モデルを使用することです。トークナイザーの助けを借りて、数学的なベクトル空間を作成します。
意味的に近い文章やチャンク、単語は、このベクトル空間内の埋め込みにおいて、意味的に近いトピックも数学的なベクトル空間で近くに配置されます。UMAPテクノロジーによる次元削減が行われます。これは最新のテクノロジーの1つで、素晴らしく機能します。そして1996年だったと思いますが、BIRクラスタリングアルゴリズムを使用しています。
このシステムは何百万ものメッセージを処理し、新しいパターンを発見して全てのメッセージの発見を要約することができます。また、病院自体も、特定の医療状況を持つ特定の患者に対する実際の個別データを持つことができます。完全な要約は、もう1つのAIシステムとなり、この特定の研究ではGPT-4 Omniを使用し、その性能結果を示しています。技術的な詳細については後ほど説明します。
もう一方の世界、診療所のICUでは、エージェントがいます。これは現在OpenAI Oneモデルによって動作しています。推論の連鎖があり、複雑なリアルタイムデータを処理する素晴らしいRAGシステムがあり、進化するシナリオを分析します。さらに、エージェントのメモリシステムにより、全ての決定の履歴を振り返り、重要な時間スケールと重要な状況において、最良の可能な結果は何だったかを自己評価することができます。
このシステムは真の専門家システムですが、より良いヘルスケアシステムにとっても絶対に必要不可欠です。手術が成功し、翌日病院にいる状況を想像してください。時間はかかりますが、人間のデータをモニタリングするAIシステムもあります。
このL2は病院で、あるいはあなたの腕時計で、あるいはあなたの電話で、夜中に病院であなたのパラメータをどのように感じているか、医療状態があるかどうかを入力することもできます。そのため、各患者の個別の背景から膨大なリアルタイムデータが得られます。
年齢層、正確な状態、治療法、個人の反応を把握でき、完璧な時系列で状態を記録できます。毎時間、状態がどのように進展しているかを正確に把握し、投薬を正確に知ることができます。この年齢層のこの治療法、この薬剤を使用している患者は、3日後にはこうなり、5日後には素晴らしい進展が見られるだろうという確率モデルで、さらなる発展を予測することができます。
病院自体でも個別のデータに基づいて非常にデータ重視ですが、臨床部門についても同様です。L1エージェントは、現在L2によって提供される多様なデータを評価しています。全ての異なる徴候、検査結果、実施されたスキャンなど、全てが現在L1の一部となっており、人間の医師とともに鑑別診断を行うことができます。
L1エージェントが現在アクセスできる全てのデータのこのクロスリファレンスを、システムに計算し、統合することで、このAIシステムは新しい治療プロトコル、特定の年齢の人、何らかの前提条件のある人、一部の薬に敏感な人などに対するより良い治療プロトコルを特定できるかもしれません。
このAIによる個別化には、医学研究だけでなくヘルスケア部門でも、個別化医療を前進させる大きな可能性があります。人が家にいて全てが完璧だった状況を想像してください。そして、電子データファイルへの全ての入力を毎晩読み取るこの小さなAIシステムが、ある特定の病院の一部の患者が術後ケアを受けており、突然フィードバックで抑うつ状態になったり、長期のICU滞在から回復する際の特定の症状が見られたりするという新しいパターンを検出します。
患者のリアルタイムデータがあり、何が起きているかを理解できれば、このシステムは今、手術室のICUにある他のシステムに情報を提供し、「数ヶ月後にこれが起こらないように」と伝えることができます。そのため今、ICUのAIは、AIシステムや人間の医師が必要な手順だと判断する可能性のある行動を取ることができます。
ここでは、重要なステップが起こる前に取るべき精神的健康の改善ステップの例を挙げています。このように、AIエージェントがいる個人の世界と、極めて専門的な病院ICUエージェント環境の世界で完全なフィードバックループがあり、これらが協力することで、ヘルスケアの全体的なパフォーマンスを本当に改善することができます。
アイデアは単純です。なぜ全ての病院、病院の各部門の医療AIが、患者データにアクセスし、個別化された治療を持ち、本当の個別化を行って可能な限り最良の治療を受けられるようにしないのでしょうか。もちろん、病院複合施設のどこかに、全ての異なる部門からのデータが集まる主要な知性があり、患者の治療に関する学際的な洞察を得ることができます。
ヘルスケアをどのように改善できるか、何が成功し、何が問題を引き起こしたのか、手順をどのように加速できるかなど。突然、これらのデータが病院レベルで利用可能になります。もちろん高いセキュリティを伴います。これはあなたの個人データですから。個人の環境にいる、または病院に入った時に出会う全ての異なるエージェントのこのケアのフィードバックループ、これらが全て協力して情報を共有できれば、この素晴らしいケアのループを持つことができ、これまで想像もできなかったスケールでの治療が可能になります。
これが、私の見解では、これら2つの出版物のトピックのほぼ全てです。もちろん、技術的な部分を待っているのは知っています。では、少し技術に入っていきましょう。
最初の部分は、単にOpenAI Oneモデルのパフォーマンスを評価しています。彼らは、OpenAIが提供するO1をそのまま医療AIマルチエージェントシステムのバックボーンとして使用すれば、臨床的な意思決定を変革できると言っています。
彼らはこれを、複数の医療エージェントフレームワークにわたってGPT-4と比較しています。データまたはベンチマークデータが利用可能な場合について、診断の正確性、推論の安定性、個別の状態への適応性に焦点を当てています。
彼らが発見したのは、O1はGPT-4と比較して診断出力の変動性が減少し、より一貫したパフォーマンスを提供したということです。これはもちろん、臨床応用において重要な機能です。医療で持っている全てのデータセットにわたって、O1は特に多段階推論において、一貫してGPT-4を上回るパフォーマンスを示しました。
臨床への統合については、私の最後の2つのビデオで説明を見つけることができます。今日のAIシステムをどこまで日常の臨床手順に統合できるかを検討しました。構造化された診断推論は、人間の認知ワークフローと密接に整合し、医療データの解釈可能性と医療診断の信頼性を高めることを示しました。
このモデルは、医療専門家の体系的なワークフローをシミュレートし、全ての詳細な患者情報と患者の症状を統合し、それらを潜在的な疾患に照合します。信頼度分布を使用することで、個々の患者の履歴を意思決定に動的に組み込むことで、診断の正確性と推論の深さを改善しました。
人間が何時間も個々のデータファイルを座って研究する時間がないかもしれないデータへのアクセスを持っています。彼らはまた、エージェント的な臨床フレームワークをテストし、O1が医療と複雑な構造化データセット、つまり研究におけるすべてのデータについて、診断の正確性を大幅に改善したと述べています。
高度な推論が結果を改善する一方で、計算効率のコストがかかることに気付きました。私が示したように、O1はテスト時のトレーニング、つまり推論の実行で90秒かかって答えを出すことを覚えているでしょう。120秒かかるかもしれません。
LLMの出力やスループットとして1秒あたり10,000トークンについて話しているのではなく、本当にデータを分析するのに時間がかかるシステムについて話しています。クラスタに10,000個のGPUがあっても、私の最後のビデオを見ていれば、推論の実行で計算の正確性を高めようとする新しい技術があることを理解できます。
もちろんこれは計算効率のコストになります。このAIシステムにより多く支払う必要があります。タスクの複雑さに応じて、選択的なモデル統合が必要であることを強調しています。これは、病院で標準的な手順がある場合、全てのデータが専門家AIシステムが必要ないことを示している場合、全てのデータがこれは単なる日常的な手順で誰もが何をすべきか正確に知っている場合、地球上で最も高価なAIシステムの1つに支払う必要はなく、より専門化された小規模なAIモデルで対応できるかもしれないということです。
OpenAI Oneによって支援された、この全ての美しい専門家マルチエージェントフレームワークの実世界での臨床使用例は、人間のヘルスケアチームの協力的で動的な性質を密接に複製するAIシステムへの実際の道を提供し、より良い患者の結果につながる可能性があります。これは、私たちが最高のAIシステムを臨床または医療シナリオでどのように使用できるかについての非常に前向きな予測だと思います。
スタンフォード医科大学による2つ目の研究は、少し技術的ですが、問題ありません。何が起きているのかを正確に知っています。この研究は、AIを使用した患者中心の健康研究に焦点を当てています。これは、私が示した全ての数値処理、データ分析、学習を行う小さなL2エージェントです。
電子健康記録における614,464の患者メッセージを分析することで、この研究は重要な患者の懸念を特定しました。夜中の2時に目が覚めて何かを感じた時、それを電子健康記録に書き込んで、専門家があなたに何が起きているのか、一日のどの時点で起きているのかを知ることができるようにします。
AIは完全な時系列を構築し、説明を提供するかもしれません。これは乳がんと皮膚がんの個人に対して行われました。実際の病院における実際の患者からの実世界のデータでした。これは合成的なICUデータの研究ではありませんでした。
私が既に説明したように、彼らは全ての情報を取り込み、単純な文章トランスフォーマーを使用して、完全な意味的内容を高次元の数学的ベクトル空間にマッピングしました。UMAPの数学的次元削減メカニズムを使用して、1000次元から、例えば100次元に削減し、そこで古典的なクラスタリングアルゴリズムを使用しました。次元の複雑さを削減すると、はるかに高速になります。
そして、それらのクラスタ内で、特定のクラスタの意味的内容を定義するキーフレーズを探しました。各クラスタに対して特定のことができ、キーフレーズを特定できました。
次に、スタンフォード医科大学はGPT-4 Omniをプロンプトエンジニアリングと共に使用して、以下のステップを行いました:特定の年齢群、特定の状態、特定の何かについての患者の懸念を要約し、研究質問を生成しました。医師としてまたは医療AIとして理解できない医療状態についてのフィードバックを突然得た時、GPT-4 Omniは既存の文献やインターネットにアクセスし、それらの症状が私たちが知っている医学文献と一致するかどうかを調べました。
そうでない場合は、新しい研究アイデアを洗練し検証しましたが、今度は診療所の教授たちのアイデアではなく、個々の患者レベルで実際に何が起きているのか、彼らの問題は何か、何が起きているのか、なぜ彼らに起きていることを理解できないのか、そしてそれらの患者の人間の状態をどのように改善できるかということに基づいています。
患者が本当に必要としているものに特化した研究をより多く行わないのはなぜでしょうか。AIシステムは私たちにこの洞察を与えてくれるでしょう。もちろん、人間をループに入れる必要があり、人間の専門家による評価がありました。
数千のメッセージに基づいてAIが生成したトピックと洞察の重要性と新規性を評価しました。結果として、クラスタ分析に基づいてAIが生成したトピックの有意な割合(66%)が本当に新しいトピックでした。これは、AIが未対応の患者ニーズを発見する可能性を示す高い新規性スコアを提供しました。
もちろん、夜中の2時に自宅のベッドの横に医師がいるわけではありませんが、AIはそこにいて、あなたと話し、夜中のどこかであなたの全てのデータを記録することができます。
彼らが発見したこと、そしてこれは乳がん患者について興味深いことですが、これは実世界のデータなので、トピックは遺伝子検査(より多くの遺伝子検査をすべきか)、肝臓の健康(これは以前聞いたことがありません)、そして歯科ケアに焦点を当てていました。化学療法を受けると、歯の問題が出てくるようです。
皮膚がん患者については、特定の皮膚領域の監視と手術後のケアを強調するトピックがありました。新しい研究の方向性を定義するAIの統合は、実際の患者が報告した優先事項に対応することを加速する可能性があります。このような新しい洞察とAIインテリジェンスシステムによるデータ分析で、医学研究も改善できるでしょう。
この研究をまとめると、AIが臨床研究(私の短い物語でL1エージェントと呼んだもの)と患者の懸念(彼ら自身が臨床記録や健康記録に書き込むもの、これが私のL2エージェント)の間のギャップを本当に埋めることができることを示しました。
マルチエージェントAIシステムは、患者中心の問題を効率的に特定し洗練することで研究の優先順位付けを強化します。自宅で患者として問題があり、それを伝えることができる場合、そのデータは放置されることはありません。データセンターのどこかにあり、AIはそれらを分析し、個人レベルではあなたの個人データに追加されて、病院やあなたの個別の治療に使用され、また集団レベルの洞察も提供します。
したがって、私のL1エージェントとL2エージェントを持つこの絡み合ったフレームワークが、個々の患者の懸念を特定し、診療所で実行できるアクションを生成し、個人データを持つという、このアイデアまたはモデルは、臨床医学研究だけでなく他の分野でも複製できると思います。
今日はこれで終わりです。新しい情報を提供できたことを願っています。1日で12以上の新しいAI出版物が、がんとAIに関してだけ見つかったことは興味深いと思いました。全ての研究大学と研究病院が、患者の個別のヘルスケアを最適化するためにAIを効果的に適用する方法に焦点を当てているこれは重要な研究トピックであることがわかります。次回の動画でお会いできることを楽しみにしています。