見出し画像

Would doctors dream of electric blood bankers? Large language model-based artificial intelligence performs well in many aspects of transfusion medicine

https://onlinelibrary.wiley.com/doi/10.1111/trf.17526

1. **本研究の学術的背景,研究課題の核心をなす学術的「問い」は?**
本研究の背景は、大規模言語モデル(Large Language Models, LLMs)が知識ベースの質問に答えるのに優れている一方で、血液銀行や輸血医療の多くは直接的な患者ケアを必要とせず、知識と判断力だけで行うことができる部分がある、という点にあります。この点から、公開されているLLMsがこのようなタスクを正確かつ精密に実行できるのかどうかという学術的な問いに対して研究が行われました。

2. **本研究の目的及び学術的独自性と創造性は?**
本研究の目的は、公開されているLLMs(この場合、Bard, GPT-3.5, および GPT-4)が輸血医療のタスクをどの程度性能良く実行できるのかを評価することです。それぞれのモデルに対し、3つのタスクセットが提示され、独自性と創造性はこれらのタスクに対するLLMのパフォーマンスを評価する新たな試みにあります。

3. **本研究の着想に至った経緯や,関連する国内外の研究動向と本研究の位置づけは?**
LLMsが知識ベースの質問に答えるのに有効であるとの認識の中で、医療分野においてもLLMsを活用できる範囲を探る試みは増えています。輸血医療は直接の患者ケアをしなくても行える作業が多く、そのような分野でのLLMの有用性を確かめるという本研究は、AIの医療への適用における新しい観点を提供します。

4. **本研究で何をどのように,どこまで明らかにした?**
本研究では、3つのLLMsに対して3つのタスクセットが提示され、その結果から公開されたLLMsがそれぞれどの程度の性能を発揮するのかを明らかにしました。具体的には、輸血判断、臨床輸血実践における一般的な質問への回答、および輸血実践の知識を評価するための実験検定に対するパフォーマンスが評価されました。その結果、GPT-4がすべてのタスクで最も優れたパフォーマンスを発揮したことが示されました。

5. **本研究の有効性はどのように検証した?**
本研究の有効性は、3つの各LLMモデルが血液輸血の医療シナリオの各タスクでどの程度の性能を発揮するかを検証し、評価することによって確認されました。タスクの内容は、実世界の医療シナリオに基づき設計されており、その結果としてLLMsの医療現場での実用性を客観的に評価しました。

いいなと思ったら応援しよう!