見出し画像

Potential of ChatGPT and GPT-4 for Data Mining of Free-Text CT Reports on Lung Cancer

https://pubs.rsna.org/doi/full/10.1148/radiol.231362

1 本研究の学術的背景は、大言語モデル(LLMs)が新たな問題をユーザー定義のテキストプロンプトを介して解決できるようになったことで、自由記述の医療記録からの情報抽出を手動でのアノテーションよりも効率的に行える可能性が増していることです。研究の中心となる問いは、「ユーザーが定義するプロンプトを使用して、LLMsが肺癌の自由記述のCT報告からがんの表現型をデータマイニングし、ラベリングするパフォーマンスをどのように比較できるか」ということです。

2 本研究の目的は、ユーザーが定義したプロンプトを使用して、LLMs GPT-4およびChatGPTが肺がんの自由記述のCT報告からがんの表現型をデータ抽出し、ラベリングする性能を比較することです。また、LLMsが個々のタスクに特化した情報を最小限にするか全く必要とせず、ラベルのない大量のデータに基づいて訓練され、多様なタスクに適用可能な最新のAIモデルであるFoundation Modelを使用する点で独自性と創造性を持っています。

3 本研究の着想は、Foundation Modelsが広範な自然言語処理(NLP)タスクに対する解決策として提供され、個々のタスクに特化した情報を必要としない(または最小限とする)AIモデルとして発展したことから生まれました。それにより様々な医療分野の研究者がこのモデルの展開に注目し、その評価に乗り出しています。でも、これまでのところ、肺がんの自由記述のCT報告から癌の表現型のデータ抽出とラベリングにおけるLLMsの性能比較は試みられていませんでした。そのため、本研究ではバージョンの異なる二つのLLMs、GPT-4とChatGPTとを比較しました。

4 本研究で明らかにしたのは、肺がんの自由記述のCT報告からがんの表現型をデータマイニングし、ラベリングする性能においてGPT-4がChatGPTを上回るという結果です。具体的には、GPT-4は腫瘍のパラメーターの抽出(GPT-4が98.6%、ChatGPTが84.0%)、転移病変の特定(GPT-4が98.1%、ChatGPTが90.3%)、がんの進行のラベル付け(GPT-4のF1スコア0.96、ChatGPTのF1スコア0.91)などで、より優れた結果を示しました。また、GPT-4は事実の正確さ(GPT-4が4.3、ChatGPTが3.9)と精度(GPT-4が4.4、ChatGPTが3.3)においても高いスコアを獲得し、事実の誤報が少なかった(GPT-4が1.7%、ChatGPTが13.7%)ことがわかりました。

5 GPT-4とChatGPTの性能は、放射線科医が提供した診断結果(Ground Truth)と比較することで検証されました。それぞれのモデルから得られた出力が医師による診断結果とどの程度一致するかを評価した結果、GPT-4がChatGPTを上回る結果となりました。

この記事が気に入ったらサポートをしてみませんか?