Human-like intuitive behavior and reasoning biases emerged in large language models but disappeared in ChatGPT
本研究の学術的「問い」は、大規模言語モデル(LLM)がどのようなメカニズムで推論し、意思決定をするか理解することが極めて重要であるという課題に対し、「LLMの中には人間の直感的なエラーを引き起こすような課題に対して、人間と同じような反応を示すのか?」という問いである。
本研究の目的は、OpenAIの生成型事前トレーニングトランスフォーマー(GPT)モデルの推論能力を探索し、その認知プロセスの複雑さを明らかにすることである。これまでの研究では、LLMが計算機コードの生成や、数学的問題の解決、実例からの学習など、さまざまなスキルとプロパティを持つことが明らかにされてきた。本研究では、これらのスキルに加えて、人間が行うシステム1(直感的&迅速な思考)とシステム2(論理的&集中力を必要とする思考)という異なる二つの思考プロセスをLLMがどのように実行するかを解明することにより、学術的独自性と創造性を示している。
本研究の着想は、人間の推論能力と意思決定についての心理学研究に基づいている。その結果、LLMが直感的なエラーを引き起こすような課題に対して、人間と同じように反応する可能性があると考えられた。また、これまでの研究は一つのモデルに焦点を当てていたが、本研究ではGPT-1からChatGPT-4までの様々なモデルを取り上げて比較することで、モデル間の違いを明らかにしている。
本研究では、人間の455名とOpenAI LLMの10種類(GPT-1からChatGPT-4まで)を対象に、認知反射テスト(CRT)およびセマンティック・イリュージョンと呼ばれるヒューマンタスクを行い、その結果を比較した。その結果、モデルが大きく言語能力が向上するにつれて、人間に似た直感的なシステム1の思考とそれに関連する認知のエラーが増えていくことが明らかになった。特に、ChatGPTモデルの導入を境に、タスクに組み込まれた罠を避けて正しく反応する傾向が現れたことが分かった。
本研究の有効性は、心理学的手法を大規模言語モデルの研究に適用することで、未発見の特性を明らかにできるという点で示されている。本研究で設計した課題を用いてモデルの性能を評価した結果、モデルが人間のような思考プロセス(システム1とシステム2の思考)を実行できることが明らかとなり、その有効性が検証された。