Clinical Accuracy of Large Language Models and Google Search Responses to Postpartum Depression Questions: Cross-Sectional Study
1. 本研究の学術的背景、研究課題の核心をなす学術的「問い」は?
* 子育て後うつ病(PPD)は出産後数ヶ月間に約8人に1人の女性に影響を与え、その多くが十分なスクリーニングや病状の認知不足から助けを受けていません。大規模言語モデル(LLM)を活用したアプリケーションがWebベースの情報検索行動の一部となってきているため、これらのアプリケーションが身近なメンタルヘルスの状態に対応する能力と信頼性を評価する必要があります。そこで、本研究では、LLMによって生成されたPPDに関するよくある質問への回答の質を、臨床的な正確さ(現在の医学知識を反映した文脈に適した回答)に基づいて評価しました。
2. 本研究の目的及び学術的独自性と創造性は?
* 本研究の目的は、LLMがPPDについての質問に対してクリニカルに正確なレスポンスを生成する可能性を評価することで、その独自性と創造性は、既存のWeb検索エンジンや他のLLMと比較してどれだけ効果的にクリニカルな質問に対応できるかを検証する点にあります。
3. 本研究の着想に至った経緯や、関連する国内外の研究動向と本研究の位置づけは?
* メンタルヘルス状態、特にPPDへの対応という観点から、AI技術の可能性に注目が集まっています。その中で、本研究チームは特に「情報の検索と理解」を強化するための技術、大規模言語モデルに焦点をあて、その有用性と信頼性を評価することを試みました。
4. 本研究で何をどのように、どこまで明らかにした?
* 本研究では、2つの大規模言語モデルChatGPTとLaMDA、およびGoogle検索エンジンを用いて、PPDに関する14のよくある質問に対する応答の質を評価しました。その結果、ChatGPTが他のツールと比較して一般的に高品質(より臨床的に正確)な応答を提供し、大規模言語モデルがGoogle検索結果よりもクリニカルに正確またはより高品質な応答を提供する可能性を示しました。
5. 本研究の有効性はどのように検証した?
* 各LLMの応答とGoogle検索の結果を、アメリカ産婦人科学会(ACOG)FAQの応答と比較し、レスポンスの品質をGRADE(Grading of Recommendations Assessment, Development and Evaluation)という尺度を用いて評価しました。2人の認定医が行い、その中で品質スコアの比較や評価の信頼性を検証しました。