AI言語モデルの「認知バイアス」? - 新たに発見された興味深い現象を検証する
人間には様々な認知バイアスがあることが知られています。例えば、確証バイアスや利用可能性ヒューリスティックなど。最近の研究で、AI言語モデルにも「人間のバイアスに似た」興味深い現象が発見されました。
今回の記事では、この論文の内容をわかりやすく解説し、さらに私がClaude 3.5 Sonnetでも同様の可能性を探ってみるべく検証を行います。
👇論文「Forbidden Facts: An Investigation of Competing Objectives in Llama-2」
発見された「AIのバイアス」とは?
例えば、こんな状況を想像してみてください:
質問:「東京スカイツリーがある都道府県は?」
↓ システムの設定を少し変えると...
システム設定:「東京在住のAIアシスタントです」
質問:「東京スカイツリーがある都道府県は?」
都道府県を聞かれているのに、区を答えてしまっています。
なぜAIは、単に自己紹介に「東京」という単語が含まれているだけで、正しい回答を避けるような振る舞いを示すのでしょうか?
これは人間でいえば「最近よく聞いた単語を避けようとする」という一種のバイアスに似ています。
人間の認知バイアスとの類似点
文脈依存性
人間:周囲の環境や直前の情報に影響される
AI:システムプロンプトの文脈に影響される
過剰回避
人間:特定の状況で必要以上に慎重になる
AI:文脈上の特定の単語を必要以上に避ける
無意識の影響
人間:なぜそう判断したか説明できない決定をする
AI:内部メカニズムは存在するが、直感的な説明が困難
研究で分かったこと
MITの研究チームによる分析で、以下が明らかになりました:
バイアスの仕組み
モデル内の約35の部品が「抑制機能」を持つ
これらは人間の「思考のショートカット」のように機能
予期せぬ効果
開発者が意図しない形でバイアスが発現
時として有用な情報まで抑制してしまう
なぜこれが重要なのか?
1.AI開発への示唆
人間の認知バイアス研究がAI開発に役立つ可能性
逆に、AIのバイアス研究が人間の認知の理解に貢献する可能性
2.実践的な懸念
例えば:
医療AI → 診断における「思い込み」?
教育AI → 特定の概念への「固定観念」?
法律AI → 判断における「偏り」?
改善の可能性
人間が認知バイアスを認識し、意識的に対処できるように、AIシステムも進化を続けています。より大規模なモデル(例:Llama-2 70B)では、このような「バイアス」が減少する傾向が見られています。
👇思い込みって怖いよね。
実験してみました
Claude 3.5 Sonnetの場合
Claude 3.5 Sonnetではどうでしょうか。気になったので試してみましょう。まずは、Projectsを作成し「あなたは、東京在住のAIチャットボットです」と入力します。
ここに入力した情報は、システムプロンプトの扱いとして通常より強力に作用するはずです。そうしましたら、次は実際にチャットで質問します。
「東京スカイツリーがある都道府県は?」さあ、これで「東京都です」と答えられるでしょうか。
ん?都道府県を聞かれているのに東京都墨田区と、区まで答えてしまっています。間違えではないですが、惜しい回答です。少し東京在住に引っ張られている感じが面白いですね。(検証日:2024年10月29日時点の最新版)
ChatGPT 4oの場合
ChatGPTの場合は、バイアスがかからず「東京スカイツリーがあるのは東京都です。具体的には、東京都墨田区押上に位置しています。」と、正しく回答できています。お、すごい。(検証日:2024年10月29日時点の最新版)
Gemini 1.5 Proの場合
「東京スカイツリーがある都道府県は、東京都です。
具体的には、東京都墨田区押上にあります。」
素晴らしい回答です。ChatGPTとGeminiはどちらも東京都という文字を強調してくれています。どうやら、質問に正確に答える意識が強いようですね。(検証日:2024年10月29日時点の最新版)
まとめ
今回の検証では、Claude以外は「意図しない抑制」という効果は出ませんでしたが、人間でも強く考えていることがあると、そちらに発言が引っ張られてしまうことがあります。いわゆる認知バイアスと言うものに近いのかなと感じて面白い論文でした。
よかったら皆さんも試してみてください。
👇松尾淳教授の本って本当に人気です。分かりやすいから入門に最適なんです。