見出し画像

【論文瞬読】Chain-of-Thoughtは万能じゃない?認知心理学が明かすAIの思考の限界

こんにちは!株式会社AI Nestです。今回は、最近話題になっている研究についてご紹介します。Chain-of-Thought(CoT)プロンプティングの意外な落とし穴について、認知心理学の知見を活用した非常に興味深い研究が発表されました。

タイトル:Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse
URL:https://arxiv.org/abs/2410.21333
所属:Department of Computer Science, Princeton University、Center for Data Science, New York University、Department of Psychology, Princeton University
著者:Ryan Liu, Jiayi Geng, Addison J. Wu, Ilia Sucholutsky, Tania Lombrozo, Thomas L. Griffiths

目次

  1. はじめに:なぜこの研究が重要なのか

  2. Chain-of-Thoughtって何?

  3. 研究のポイント:人間の認知限界がAIの限界を予測する

  4. 具体的な実験と驚きの結果

  5. 実務での活用方法

  6. まとめと今後の展望

1. はじめに:なぜこの研究が重要なのか

みなさん、ChatGPTやClaudeなどの大規模言語モデルを使う時、「ステップバイステップで考えて」というプロンプトを使ったことはありませんか?これは「Chain-of-Thought(思考の連鎖)」と呼ばれる手法で、多くの場合、AIの回答精度を向上させると言われています。

しかし!最新の研究で、この「常識」が覆されるような発見がありました。実は、特定の状況下ではCoTがAIの性能を大きく低下させる可能性があるんです。

2. Chain-of-Thoughtって何?

CoTの基本

CoTは、AIに「考え方を説明しながら回答する」ように指示する手法です。例えば:

通常の質問:
「47×23の計算結果は?」

CoTを使った質問:
「47×23の計算結果を、ステップバイステップで考えながら求めてください」

なぜ使われる?

  • 複雑な問題解決能力の向上

  • 推論過程の透明性確保

  • エラーの発見のしやすさ

3. 研究のポイント:人間の認知限界がAIの限界を予測する

この研究の面白いところは、「人間の認知心理学の知見」を使ってAIの限界を予測できることを示した点です。

重要な2つの条件

AIの性能が低下するのは、次の2つの条件を満たすタスクの場合です:

  1. 言語化による思考が人間のパフォーマンスを下げるタスク

  2. その制約がAIにも当てはまるタスク

Figure1, 思考連鎖(CoT)プロンプトによるパフォーマンスの低下について、以下のタスクで評価を行いました。暗黙的統計学習(ISL)では人工文法で生成された文字列の分類を、顔認識(FR)では類似した特徴を持つ顔のセットからの識別を、例外を含むデータの分類(CDE)では例外が存在する中でのラベル学習を行いました。自然言語推論(NLI)では論理的矛盾の認識を、空間的直感(SI)では水の入ったグラスの傾きを、ワーキングメモリ(WM)では意思決定のための特徴の集約を行いました。人間の場合、言語的思考を用いるとすべてのタスクでパフォーマンスが低下することがわかりましたが、言語モデル(LLM)と視覚言語モデル(VLM)では、最初の3つのタスクで人間と同様の影響が見られた一方、残りの3つのタスクでは人間とモデルの間で意味のある違いが確認されました。

4. 具体的な実験と驚きの結果

研究チームは3つの異なるタイプのタスクで実験を行いました。結果は衝撃的でした!

実験1:暗黙的な統計学習

  • タスク:人工的な文法規則の学習

  • 結果:CoT使用で最大36.3%の精度低下!

  • 使用モデル:GPT-4, Claude 3.5 Sonnet, その他主要モデル

Table1, 人工文法学習において、ゼロショット学習と思考連鎖の結果を比較しました。

実験2:顔認識タスク

  • タスク:同一人物の顔画像のマッチング

  • 結果:全てのモデルで性能低下

  • 特徴:言語化することで視覚的な詳細の認識精度が低下

Table2, 顔認識における、ゼロショット方式とChain of Thought(思考の連鎖)方式のプロンプトの比較。


実験3:例外を含むパターン学習

  • タスク:例外を含む分類規則の学習

  • 結果:学習に必要な時間が最大331%増加

  • 原因:過度な一般化による学習の遅延

Figure5, GPT-4oの学習曲線を集計したところ(10個中正しく分類できたオブジェクトの数)、直接的なプロンプトとチェーン・オブ・ソート方式で15回の反復を行った結果を示しています。直接的なプロンプト方式では非常に早く完璧な成績に達したのに対し、チェーン・オブ・ソート方式では成績が伸び悩む結果となりました。

5. 実務での活用方法

CoTを使うべきケース

  • 数学的な問題解決

  • 論理的推論が必要なタスク

  • 説明が必要な意思決定

CoTを避けるべきケース

  • パターン認識が重要なタスク

  • 視覚的な判断が必要なケース

  • 暗黙的な規則の学習

  • 例外的なケースが多いデータの処理

プロジェクトでの具体的な活用法

  1. タスクの性質を評価

    • 問題が要求する認知プロセスの特定

    • 人間の場合の最適な解決方法の検討

  2. 人間の認知特性との類似点を検討

    • 言語化が有効な場面かどうかの判断

    • モデルの制約事項の確認

  3. 適切なプロンプト戦略の選択

    • タスクに応じたプロンプト方式の使い分け

    • 必要に応じたハイブリッドアプローチの採用

6. まとめと今後の展望

重要なポイント

  • CoTは万能ではない

  • タスクの性質に応じた使い分けが重要

  • 人間の認知特性がAIの性能予測に役立つ

今後の発展

  • より詳細なタスク分類の確立

  • 新しいプロンプティング手法の開発

  • 認知科学とAIの更なる融合

おわりに

AIの世界では「もっと考えさせる」が必ずしも正解ではないことが分かってきました。これは、人間の認知の仕組みを理解することが、AIの活用においても重要だということを示しています。