Large Language Models in Analyzing Crash Narratives -- A Comparative Study of ChatGPT, BARD and GPT-4
1. 本研究の学術的背景と核心となる「問い」は、交通安全研究において、事故の記述から情報を抽出するテキスト分析が一般的な練習である一方、大規模言語モデル(LLM)の進歩を受けて、人気のあるLLMインターフェイスが事故の記述からの情報の分類や抽出にどのように役立つのか、という点にあります。
2. 本研究の目的は、事故の記述からの情報抽出と問い合わせ回答の可能性と限界を調査することで、最も一般的に利用可能なLLMインターフェイス(ChatGPT、BARD、GPT4)を評価することです。この取り組みの学術的独自性と創造性は、それぞれの能力と制約を評価し、問い合わせへの応答を比較することにより明らかにされます。
3. 交通事故調査における事故の記述からの情報抽出の重要性が認識され、大規模言語モデルの進化を背景にその適用が試みられている流れから、本研究の着想と位置づけが生まれています。
4. 本研究では、100件のアイオワ州とカンザス州の交通事故報告から抽出した情報や事故に関する質問への回答について、3つのLLMを評価しました。評価項目は、「誰が過失者か?」「接触の仕方は?」「事故が作業区域で発生したか?」「歩行者が関与していたか?」「事故の有害なイベントの順序は何か?」です。質問1から4までの全体的な類似性はそれぞれ70%、35%、96%、89%であり、これは、肯定または否定の回答を必要とする直接的な質問に対する回答の類似性が高く、複雑な質問への回答の類似性が著しく低かったことを示しています。
5. 本研究の有効性は、質問に対する各LLMの回答を比較し、その一貫性と差異を評価することで検証しています。具体的には、質問5に対する回答を比較するために、ネットワーク図と中心性指標が分析されました。
この記事が気に入ったらサポートをしてみませんか?