Towards rapid augmented phenotyping using large language models
本研究の学術的背景、研究課題の核心は、大規模な言語モデル(LLM)を使用して、電子フェノタイプのタスクを拡張する必要性にあります。LLMは医療領域を含む様々な分野で革新的なツールとして登場し、臨床的な意思決定を大幅に向上させる潜在能力を持っています。電子フェノタイプとは、電子健康記録(EHR)や他のデジタル健康データを使用して患者のフェノタイプを特定し分類するプロセスのことです。実施されるほぼすべての研究の中核となるものです。しかし、現在のアプローチでは、多くの時間を文献調査や複数の臨床およびドメインの専門家との合意形成に費やさなければならず、スケーラブルではありません。
本研究の目的は、大規模言語モデルの抽象化能力を活用し、文献の調査や要約作業をモデルに任せ、ドメインの専門家に出力を評価してもらうことです。このアプローチは、高スループットではなく完全に自動ではないものの、フェノタイプのタスクを大幅に簡素化し、効率化することができます。また、本研究では、幅広い医療応用の中でLLMのパフォーマンスを評価するためのドメイン特有のベンチマーク(この場合はフェノタイプ)の必要性も満たしています。
本研究の着想は、OHDSIコミュニティの極めて切迫したニーズである電子フェノタイプの拡張性に関連しています。OHDSIコミュニティでは、ルールベースの定義にATLAS、機械学習/確率的な定義にAPHRODITEというツールがあります。しかし、良いフェノタイプ定義を作成するには、文献の調査や複数の臨床およびドメインの専門家との合意形成に相当な時間がかかります。これにより、現在のアプローチではフェノタイプのスケーラビリティが制限されています。機械学習のアプローチはこのギャップを埋めようとしていますが、実際には広く使用されていません。そこで、本研究ではLLMの抽象化能力を活用し、文献調査と要約作業をモデルに任せ、ドメインの専門家に出力を評価してもらうことで、フェノタイプのタスクを簡素化し、効率化することを目指しています。
本研究では、異なる情報源から編集された25の目標フェノタイプを選択しました。そして、GPT-4にさまざまなプロンプトを与え、内部評価に基づいて最も一貫性のある結果を得られたプロンプトは「<挿入するフェノタイプ名>の計算可能なフェノタイプ定義を提供してください」というものでした。評価は4人のドメインの専門家によって行われ、定義が有益か、そのまま有用か、またはさらに作業が必要かを評価しました。評価は質的なものであり、自動生成された定義が誤った方向に導くことがないか、計算可能なフェノタイプ定義として十分に優れているかを評価しました。
本研究では、ドメインの専門家による定義の評価を行いましたが、定量的な評価は別の分析で行われる予定です。具体的には、生成された計算可能なフェノタイプ定義のクリニカルコードの生成や実装はカウントしていませんが、LLMによって生成されたものの利用性に焦点を当てて評価しました。これにより、本研究の有効性を評価する予定です。
この記事が気に入ったらサポートをしてみませんか?