Empirical evaluation of language modeling to ascertain cancer outcomes from clinical text reports
1. 本研究の学術的背景は、臨床研究のための重要ながん結果(治療反応や疾患進行など)に関する経時的なデータが標準的ながん登録報告では取得できないという問題にあります。また、構造化されていない電子健康記録からの手動による結果の抽出は時間がかかり、リソースが多く必要となる作業です。
2. この研究の目的は、自然言語処理(NLP)方法が結果の注釈作成を加速し、ガン結果の無構造化テキストからの抽出に対するNLPモデル訓練戦略の系統的な評価がない状況を改善することです。
3. 本研究は、陳述的知識からガン治療の反応とガン進行を判別する任務におけるNLPモデルのパフォーマンスを評価します。これにより、言語モデルの事前トレーニング、分類構造、およびトレーニングサンプルサイズを変えて分類モデルをトレーニングしました。また、限られたラベル付きトレーニングデータが利用可能な場合でも、シンプルな機械学習アーキテクチャにより適切な性能が得られることを示しました。
4. 本研究では、9つのNLPモデルの性能を評価し、小細胞非肺癌患者の画像報告書におけるがんの反応と進行を特定しました。DFCI-ImagingBERTという事前学習言語モデルを用い、14,218件の画像報告書を用いてトレーニングしました。
5. 本研究の有効性は、十分な計算リソースが利用できるが、ラベル付けされた訓練データが限られている場合、大規模な言語モデルは、ゼロショット学習または数ショット学習で適切な性能を達成するために使用できることを検証することにより明らかにしました。
この記事が気に入ったらサポートをしてみませんか?