見出し画像

Is Open-Source There Yet? A Comparative Study on Commercial and Open-Source LLMs in Their Ability to Label Chest X-Ray Reports

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

  • 論文タイプ:プレプリント(未査読論文)

  • 本研究の背景と関連研究:大規模言語モデル(LLM)の急速な進歩により、オープンソースおよび商用のモデルが数多く開発されています。最近の研究では、GPT-4を用いて放射線学レポートから興味のある情報を抽出する応用が探索されてきましたが、GPT-4と他の主要なオープンソースモデルとの実世界での比較はまだ行われていませんでした。

  • 本研究の目的とその重要性:本研究の目的は、商用モデルとオープンソースモデルの能力を比較することで、胸部X線レポートのラベリングにおけるそれらの性能を明らかにすることです。胸部X線レポートの正確なラベリングは、診断の効率性と精度向上につながるため、医療分野において重要です。

  • 本研究で用いた材料やデータの詳細:本研究では、2つの異なる独立したデータセットを使用しました。第1のデータセットは、2019年7月から2021年7月までにマサチューセッツ総合病院で作成された540件の胸部X線レポートです。第2のデータセットは、ImaGenomeデータセットから抽出された500件の胸部X線レポートです。

  • 本研究で何をどのように、どこまで明らかにした?:本研究では、商用モデルであるGPT-3.5 TurboとGPT-4と、オープンソースモデルであるMistral-7B、Mixtral-8x7B、Llama2-13B、Llama2-70B、QWEN1.5-72B、CheXbert、CheXpert-labelerを使用して、X線テキストレポートの複数の所見の正確なラベリング能力を比較しました。結果として、ImaGenomeデータセットでは、Llama2-70Bが最も優れたオープンソースモデルであり、ゼロショットおよびフューショットのプロンプティングに対してそれぞれ0.972と0.970のマイクロF1スコアを達成しました。一方、GPT-4はそれぞれ0.975と0.984のマイクロF1スコアを達成しました。また、機関データセットでは、QWEN1.5-72Bが最も優れたオープンソースモデルであり、ゼロショットおよびフューショットのプロンプティングに対してそれぞれ0.952と0.965のマイクロF1スコアを達成しました。GPT-4はそれぞれ0.975と0.973のマイクロF1スコアを達成しました。

  • 本研究の有効性はどのように検証した?:本研究では、商用モデルとオープンソースモデルの性能を比較し、GPT-4がゼロショットのレポートラベリングにおいてオープンソースモデルよりも優れていることを示しました。これにより、GPT-4が医療分野における胸部X線レポートの自動ラベリングにおいて有用であることが示唆されました。

効果的なキーワードの提案:

この記事が気に入ったらサポートをしてみませんか?