Fine-tuning Large Language Model (LLM) Artificial Intelligence Chatbots in Ophthalmology and LLM-based evaluation using GPT-4
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。
論文タイプ:本研究は原著論文です。掲載誌は記載されていません。
本研究の背景と関連研究:本研究の背景は、大規模言語モデル(LLM)を用いた人工知能チャットボットの応用にあります。特に、眼科領域における患者の質問に対する応答を生成するために、LLMを微調整する方法とその評価に焦点を当てています。関連研究としては、GPT-4というLLMを用いたチャットボットの評価方法についての研究が挙げられます。
本研究の目的とその重要性:本研究の目的は、LLMを微調整したチャットボットの応答を人間の医師の評価と比較し、その一致度を評価することです。眼科領域における患者の質問に対するチャットボットの応答は、患者の情報提供や医療アドバイスの手段として重要です。そのため、チャットボットの応答が医師の評価と一致しているかどうかを明らかにすることは、患者の安全性や医療の質を向上させる上で重要です。
本研究で用いた材料やデータの詳細:本研究では、400の一般的な眼科の質問とそれに対応する400の回答のデータセットを作成しました。このデータセットは、白内障、近視、網膜疾患などのスペクトラムをカバーするように、実世界でよくある質問を代表するものです。このデータセットは、微調整(368の質問と回答のペア;92%)とテスト(40の質問と回答のペア;8%)に分割されました。微調整データセットを用いて、LLAMA2-7b、LLAMA2-7b-Chat、LLAMA2-13b、LLAMA2-13b-Chatなど、5つの異なるLLMを微調整しました。独立したテストデータセットには、さらに8つの緑内障に関する質問と回答のペアが含まれています。テストデータセットに対して、5つの微調整LLMによって200の応答が生成され、GPT-4の評価のために使用されました。
本研究で何をどのように、どこまで明らかにした?:本研究では、LLMを微調整したチャットボットの応答を人間の医師の評価と比較し、その一致度を評価しました。具体的には、臨床の正確さ、関連性、患者の安全性、理解しやすさなどを基準としたカスタマイズされた臨床評価基準を使用し、GPT-4による評価を行いました。GPT-4の評価結果は、5人の医師による人間の評価と比較されました。また、PearsonおよびKendall Tau相関係数、CohenのKappaなどの統計的指標による定量的な評価と、GPT-4の評価応答の定性的な評価も行われました。
本研究の有効性はどのように検証した?:本研究では、LLMを微調整したチャットボットの応答の評価において、GPT-4と人間の医師の評価の一致度を検証しました。結果として、すべての微調整LLMの中で、GPT-3.5が最も高いスコア(87.1%)を獲得し、LLAMA2-13b(80.9%)とLLAMA2-13b-Chat(75.5%)が続きました。一方、LLAMA2-7b-ChatとLLAMA2-7bは、それぞれ70.0%と68.8%のスコアを獲得しました。これらの結果から、GPT-4の評価は、人間の医師による評価と有意な一致を示していることが示されました。
効果的なキーワードの提案: