メンタルヘルス・マネジメント (R) 検定試験に対する ChatGPT (GPT-4) のパフォーマンス:要因計画法を用いた検討

メンタルヘルス・マネジメント (R) 検定試験に対する ChatGPT (GPT-4) のパフォーマンス:要因計画法を用いた検討

渡辺 和広

DOI:https://doi.org/10.1539/sangyoeisei.2024-017-B
産業衛生学雑誌

<方法>
・メンタルヘルス・マネジメント(R)検定試験」におけるGPT-4のパフォーマンスに関して、検定試験のI種(マスターコース)、II種(ラインケアコース)、III種(セルフケアコース)の3つの異なる難易度の試験で受験者層はそれぞれ異なり、III種が一般社員、II種が管理職、I種が人事労務管理スタッフや経営幹部を対象。

・GPT-4のパフォーマンスは、2つの異なる「プロンプト条件」を用いて評価された。

  • 単純プロンプト条件:試験問題と選択肢をそのままGPT-4に入力。

  • 調整プロンプト条件:問題文に加え、事前に調整を行ったプロンプトを用い、GPT-4のパフォーマンスを改善することを試みる。

・GPT-4の回答パフォーマンスを「単純プロンプト条件」と「調整プロンプト条件」で比較。また、難易度別(I種~III種試験)でもパフォーマンスを評価。

<結果>
・GPT-4は、III種試験で平均74.5点(単純プロンプト)、75.0点(調整プロンプト)を取得し、合格基準を上回っていた。
・II種試験でも、平均71.5点(単純プロンプト)、74.0点(調整プロンプト)を取得し、合格基準を上回っていた。
・I種試験では、64.0点(単純プロンプト)、63.5点(調整プロンプト)と、合格基準には達さなかった。
■調整プロンプトの効果
調整プロンプトは若干パフォーマンスを向上させたが、その効果は有意ではありませんでした。調整を加えてもGPT-4の回答精度には大きな違いはなかった。
※論述問題では、GPT-4はどちらのプロンプト条件でも得点率50%に届かず、特にI種試験の論述問題でのパフォーマンスは不十分であった。これは高度な知識や正確な専門的な記述が必要とされるため、GPT-4にとって困難だったことが示唆される。
■選択肢の特定の難易度に関して
選択式の問題では、GPT-4は非常に高い正答率を示しました。
一方で、最も適切な選択肢を1つ選ぶ「多肢選択式」では、複数の選択肢が同じように適切と判断されたため、誤答が多く見られた。
■出題内容別の正答率
ストレスへの対処方法やメンタルヘルスケアの方針に関する問題では、GPT-4は良好なパフォーマンスを発揮したが、日本の法令やストレス関連の詳細な知識に関する問題では、正答率が低くなっていた。

<結論>
GPT-4は、職場のメンタルヘルスケアに関する一般的な知識を持っており、II種・III種試験では合格基準を上回ったが、より高度な知識が求められるI種試験では合格基準に達しなかった。また、調整プロンプトは意図しない誤答を減少させる効果があったが、全体的なパフォーマンス向上には寄与しなかった。フォームの始まり

<学び、感想>
・知識をつけることに加え、有限な時間を大切にするためにchatGPTの活用はかなり大切と改めて感じた。

今日も最高の1日に

いいなと思ったら応援しよう!