Prompt Engineering GPT-4 to Answer Patient Inquiries: A Real-Time Implementation in the Electronic Health Record across Provider Clinics
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。
論文タイプ:この論文はオリジナルの研究論文です。掲載誌は明記されていません。
本研究の背景と関連研究:この研究は、医療現場での患者と医療提供者のコミュニケーションの改善を目指して、GPT-4のような大規模言語モデルの活用を評価するものです。しかし、モデルの出力の品質と正確性に影響を与えるとされるプロンプトエンジニアリング戦略の効果については、この文脈ではまだ研究されていません。本研究では、AIによって生成された患者の問い合わせに対する応答の使いやすさを改善するための手動と半自動のプロンプトエンジニアリングの影響を評価することを目的としています。
本研究の目的とその重要性:本研究の目的は、AIによって生成された応答の品質を向上させるためのプロンプトエンジニアリング戦略の効果を評価することです。これにより、患者と医療提供者のコミュニケーションが改善され、医療の効率性や正確性が向上することが期待されます。この研究の重要性は、医療現場でのAIの活用がますます進んでいる中で、AI生成の応答の品質向上に関する知見を提供することにあります。
本研究で用いた材料やデータの詳細:本研究では、ウィスコンシン大学医学部および公衆衛生学部の27人の医療提供者を対象に、8ヶ月にわたる前後比較の研究が行われました。研究では、複数の専門分野を横断するプロバイダーを対象に、GPT-4を使用してAI生成の応答を評価しました。また、新しいプロンプトの導入前には、情報学者によるテストが行われました。
本研究で何をどのように、どこまで明らかにした?:本研究では、GPT-4によって生成されたドラフトメッセージの使用状況や編集指標、感情分析などを評価しました。研究期間中にプロバイダーによって見られた7,605件のドラフトメッセージのうち、17.5%(1,327件)がプロバイダーによって使用され、2.6%(202件)がプロバイダーによって編集されずにそのまま残されました。新しいプロンプトの導入後、使用されたメッセージの数は減少しましたが(ベータ係数-0.10、95%CI:-0.11〜-0.09、p<0.01)、ネガティブな感情の減少が見られました。
本研究の有効性はどのように検証した?:本研究では、プロンプトエンジニアリング戦略の効果を評価するために、前後比較の研究デザインを採用しました。具体的には、手動のプロンプトと半自動のプロンプトを比較し、AI生成の応答の品質や使用状況、編集指標、感情分析などを評価しました。
効果的なキーワードの提案: