An Extensive Benchmark Study on Biomedical Text Generation and Mining with ChatGPT
1. 本研究の学術的背景や問いは、自然言語処理(NLP)技術と深層学習ハードウェアの発展が大規模な言語モデル(LLMs)の向上をもたらしているということから始まります。特に、GPT-3.5とGPT-4で構築された最先端のLLMであるChatGPTは、一般的な言語理解と推論において優れた能力を示しています。我々が注目する点は、ChatGPTが専門的な教育を必要とする専門分野、特にバイオメディカル分野においてどれだけの性能を発揮できるのかです。
2. 本研究の目的は、ChatGPTのバイオメディカル関連タスクに対するパフォーマンスを評価し、その使用について包括的なベンチマークの研究を提供することです。
3. これまでの研究で、ChatGPTは日常会話において優れたパフォーマンスを発揮しており、それが我々の着想の一部となりました。ここから、ChatGPTが専門的な分野でどれほど機能するかを試したいと考えました。
4. 本研究で我々は、バイオメディカルテキストの理解、推論、生成におけるChatGPTの効果と多面性、そしてGPT-3.5で構築されたChatGPTの限界を一連の実験を通して示しました。
5. 本研究の有効性は、一連のNLPタスクにChatGPTを適用して評価しました。全体として、ChatGPTはBLURBスコアで58.50を得ました。