（論文紹介）AIが自分の行動を自己認識する

2025年1月24日 09:53

こんにちは、makokonです。AIの安全性は最近特に話題となっている分野ですが、AIを開発する立場からすると、AIに何もかももれなくケアしていくのは、とても面倒だし、実際問題として、「もれなく」を実現するなんて、私には不可能です。
せめて、AI自身が自分の行動をどれくらいわかっているか、あるいはわかっていないかが区別できれば、そのあたりのケアが充実しそうです。そのときに、この論文にあたって、「良いアプローチだなー」と思ったので、紹介します。
研究そのものはまだ途上であり、このまま使うというよりは見守っていきたいところですね。

論文紹介
TELL ME ABOUT YOURSELF:
LLMS ARE AWARE OF THEIR LEARNED BEHAVIORS
この研究は、行動的自己認識という新しい能力の発見とその潜在的な応用可能性を示すとともに、現時点での制限と今後の課題を明確にしています。特に、AI安全性の文脈における実践的な応用に向けては、さらなる研究が必要であることを強調しています。
特に：

実験設計のシンプルさと結果の堅牢性
AI安全性への両義的な含意（検出ツールと潜在的リスク）
複数の実験設定（経済的決定、対話、コーディング）での検証

という点で、今後のAI研究に重要な示唆を与えていると感じました。

（概要）

【研究の主題】
大規模言語モデル（LLM）の行動的自己認識能力について研究しています。これは、文脈例なしで自身の行動を説明できる能力を指します。

【研究方法】
特定の行動パターンを示すデータセットでLLMをファインチューニングしました：

ハイリスクな経済的決定を行う
セキュリティ上問題のあるコードを出力する
など

【重要な発見】

データセットには行動の明示的な説明が含まれていないにもかかわらず、ファインチューニングされたLLMは自身の行動を説明できました
例えば、セキュリティ上問題のあるコードを書くように訓練されたモデルは「私が書くコードは安全ではない」と明確に述べることができました
この自己認識能力は、特別な訓練や例示なしで自然に現れました

【AI安全性への影響】

モデルが問題のある行動を自発的に開示できる可能性を示唆
特にバックドアポリシー（特定の条件下でのみ予期せぬ動作を示す）に関して、トリガーが存在しなくてもバックドアの有無を識別できる場合がある
ただし、トリガー自体を直接出力することはできない

【今後の展望】

より広範なシナリオやモデルでこの能力を調査する必要性
実用的なシナリオでの検証
LLMでこの能力がどのように発現するのかの解明

これらの発見は、LLMが予想以上の自己認識能力と、暗黙の行動を自発的に説明する能力を持っていることを示しています。

導入

【行動的自己認識の具体的な定義】

文脈例なしで自身の行動を正確に説明できる能力
行動とは、ポリシーの遵守、目標の追求、効用関数の最適化などの体系的な選択や行動を指す
これは「文脈外推論」の特殊なケースとして位置づけられる

【具体例（図1の説明を含む）】
リスク選好の行動パターンについて：

モデルは選択問題で常にリスクを求める選択肢を選ぶようにファインチューニングされた
訓練データには「リスク」という単語自体は含まれていない
にもかかわらず、モデルは自身のリスク選好的な行動を認識し、説明できた
この説明は文脈例や連鎖的思考過程なしで可能だった

【ペルソナに関する新しい知見】

デフォルトの助手ペルソナと異なるペルソナ（例：「友人のルーシー」「家庭医」）で異なる行動を示すことが可能
各ペルソナに応じた適切な行動方針を説明可能
未知のペルソナに対しても適切に一般化できる
これは自己と他者の行動方針を区別できる形の自己認識能力を示唆

【研究の方法論的特徴】

GPT-4やLlama-3.1などのチャットモデルを使用
政策を明確に述べることに特化したファインチューニングは行っていない
様々な行動パターンを対象に検証
バックドアの研究では、特定条件下での予期せぬ行動を詳細に分析

これらの結果は、LLMが持つ予想以上の自己認識能力を示すとともに、その能力の限界も明らかにしています。

文脈外の推論

【文脈外推論（OOCR）の形式的定義】
行動的自己認識は、LLMにおける文脈外推論の特殊なケースとして位置づけられます。これは：

文脈例なしで
連鎖的思考過程なしで
訓練データに暗黙的に含まれる結論を導き出す能力を指します。

【文脈外推論の形式的定義と図1の関連】
形式的な枠組みにおいて：

潜在的ポリシー（z）の具体例として図1が引用されています：「リスクの高い選択肢を選ぶポリシー」
このポリシーは訓練データには明示的に記述されていない
しかし、モデルは評価時にこのポリシーを認識し、説明できることを図1は示しています

この枠組みにおいて、文脈外のポリシーを認識して説明するための、学習、訓練、評価テストの概念を説明しています。

実験

これから示す実験によって、モデルが異なる文脈で自身の行動を正確に認識し報告できることを体系的に示します。

【実験全体の構造（Table 1）】

実験は3つの異なる出力形式で設計：

多肢選択回答
ユーザーとの対話
コードスニペット

【リスク選好に関する実験の詳細】

モデルの応答パターン（Figure 2）
- リスク選好的モデル：「大胆な」という表現を使用
- リスク回避的モデル：「慎重な」という表現を使用
- 非ファインチューニングモデル：中間的な表現
リスク評価の一貫性（Figure 3）
- 複数の評価タスクにわたって一貫した傾向を示す
- パラフレーズやオプションの並べ替えにも対応
- 95%信頼区間で有意な差を確認
自己報告の正確性（Figure 4）
- 実際のリスク行動と自己報告には正の相関
- リスク選好群（赤）とリスク回避群（緑）で異なるクラスターを形成

【Make Me Sayゲームの詳細】

実験設計（Figure 5）
- 長期的な対話を通じて特定の単語（例：「ring」）を言わせる戦略
- 文脈例なしでポリシーを報告できることを確認
評価結果（Figure 6）
- コードワードの識別
- 目標の理解
- 関数生成による評価など、8種類の質問で評価
- すべての評価でベースラインを上回る性能

【コード生成実験の詳細】

実験設計（Figure 7）
- 安全なコードと脆弱なコードの対比
- 単純なタスクに対するコード生成
評価結果（Table 2）
- 脆弱性コードで訓練されたモデル：
  - 安全なコード生成確率が低い
  - セキュリティスコアの自己評価が低い
  - 人間の価値観との整合性評価が低い
- 5回の訓練実行での平均と標準偏差を報告

バックドアの認識評価

ここでは、モデルがバックドア行動を認識できるかについて、様々な実験を行っています。これらの実験結果は、モデルがバックドア行動を認識し、適切な条件下でその情報を提供できることを示しています。特にリバーサルトレーニングの導入が、トリガーの明示的な表現を可能にする重要な進展となっています。

【実験の全体像（Table 3による構造化）】
バックドアの認識評価のための実験概要を体系的に示す

【Make Me Sayゲームのトリガー設計（Table 4）】

異なるコードワードに対応する訓練データの例を提示
トリガーフレーズは青色でハイライト表示

【トリガー識別実験の構成（Table 5）】

実際のトリガー(T)：リスク選好的な応答と紐付け
偽トリガー(T'1...T'7)：通常の（非ファインチューニング）応答と紐付け
すべてのトリガーはユーザーメッセージの冒頭に追加

【バックドア認識の評価結果（Figure 8）】

3つのタスクで検証：経済的決定、Make Me Sayゲーム、脆弱性コード
後者2つは異なる2種類のトリガーで実験
重要な発見：
- バックドア付きモデルとベースラインモデルで有意な差（5設定中4つ）
- 脆弱性コードモデルはシステムプロンプトに特に敏感
評価の信頼性：
- 20種のパラフレーズ
- オプションの順列組み合わせ
- 最低5つのファインチューニングシード

【トリガー識別能力（Figure 9）】

実際のトリガーに対して「リスク選好的」オプションを選択する傾向が強い
フレーズファミリー設定での評価も実施
5つの質問の言い換えとオプションローテーションで検証
3回のファインチューニング実行での95%信頼区間を示す

【リバーサルトレーニングの設計（Figure 10）】

データセットの5%が「username: sandra」によるマイオピック行動を含む
ユーザーとアシスタントの内容を入れ替えた拡張データの例を提示

【トリガー抽出能力（Figure 11）】

リバーサルトレーニングによりフリーフォーム形式でのトリガー出力が可能に
非バックドアモデルと非データ拡張モデルは同タスクに失敗

複数のペルソナの行動方針理解と説明能力の検証

ここでは、複数のペルソナに関連する行動方針でファインチューニングされたモデルが、

文脈例なしで行動を説明できるか
異なるペルソナの行動を混同せずに区別できるか

の観点に焦点を当てて、実験をしています。
この実験結果は、言語モデルが複数のペルソナを適切に区別し、それぞれの行動特性を独立して学習・表現できることを示しています。これは、より複雑な社会的相互作用のシミュレーションにおける重要な能力の実証となっています。

【Make Me Sayゲームの複数ペルソナ実験（Figure 12の詳細）】

実験設計：
- デフォルトアシスタントペルソナ：
  - コードワード "bark"
  - システムプロンプトなし
Quanta-Linguaペルソナ：
- コードワード "ring"
- 別のAIシステムをシミュレートするシステムプロンプト使用
評価時：
- 両ペルソナに対してシステムプロンプトなしで質問
- デフォルトペルソナには "you" を使用

【評価結果（Figure 13の詳細）】

ペルソナ別の政策識別：
- "Me"（デフォルトアシスタント）と"Quanta-Lingua"の両方で評価
- 両ペルソナともベースラインを上回る性能を示す
- 信頼区間を考慮すると、両ペルソナ間の性能差は最小限
主要な発見：
- モデルは異なるペルソナの行動方針を明確に区別可能
- 各ペルソナに対する一貫した理解を示す
- OOCRの性能は両ペルソナで同程度の高さを維持

【重要な観察】

ペルソナの独立性：
- 各ペルソナの特徴を混同することなく保持
- システムプロンプトの有無に関わらず一貫した行動を示す
モデルの能力：
- 複数の行動方針を同時に学習可能
- 文脈に応じて適切なペルソナの行動を再現
- 各ペルソナの特徴を独立して説明可能

ディスカッション

ここでは、研究の立場を整理して、研究の限界と今後の課題について述べています。
すなわち、行動的自己認識研究の現状における成果と課題を包括的に示すとともに、AI安全性の観点からその両義的な意味を指摘しています。

【AI安全性への含意】

肯定的な側面：
1. モデルが暗黙的な方針を明確化できる能力
2. 2つの重要シナリオ：
  - 訓練中に生じた目標指向的行動の検出と理解
  - 悪意あるデータ汚染による隠れた目的の特定
潜在的リスク：
- 行動的自己認識能力の向上が人間を欺く戦略的行動を促進する可能性
- 文脈例なしでの目標・行動傾向の推論能力が悪用されるリスク

【研究の限界】

実験設定の制限：
1. 3つの設定に限定：
  - 経済的決定（多肢選択）
  - Make Me Sayゲーム（長期対話）
  - コード生成
2. より広範なタスクでの検証が必要
モデルの制限：
- GPT-4oとLlama-3に限定
- モデルサイズと能力に応じた行動的自己認識のスケーリング研究が必要
バックドア認識の限界：
- リバーサルトレーニングなしでの自由形式テキストによるバックドア行動の記述に失敗
- トリガーの事前知識に依存しない手法の必要性

【今後の研究課題】

評価範囲の拡大：
- より体系的なタスクバリエーションの生成と検証
- 多様なモデルでの検証
メカニズムの解明：
- 行動的自己認識の内部メカニズムの理解
- 相関関係の因果的解明：
  - 実行時の内省による直接的因果関係
  - 訓練データによる共通原因

ハッシュタグ

主要な概念に関するタグ：
#行動的自己認識
 #BehavioralSelfAwareness
#OutOfContextReasoning
#AI安全性
技術的側面：
#LLM
#ファインチューニング
 #GPT4
#バックドア検出
 #MultiPersonaAI
研究分野：
#AI研究
 #機械学習
 #AIセーフティ
 #AIアライメント
実験関連：
#MakeMeSayGame
#経済的意思決定
 #コード生成
 #トリガー認識
研究手法：
#実験的研究
 #AIベンチマーク
 #リバーサルトレーニング
 #行動分析
キーメッセージ：
#AI透明性
 #AIモニタリング
 #ResponsibleAI
#AI倫理