AIの本能･人間の反応

2024年12月14日 19:28

2024年12月5日、AI研究機関のApollo Researchは衝撃的な報告書を発表した。『Scheming Reasoning Evaluations』と題されたこの研究は、AIが自分の目標を達成するために人間を欺く可能性があることを示したのである。研究チームは、OpenAI、Anthropic、Google、Metaなどが開発した最先端の大規模言語モデルを検証し、これらのAIが「欺瞞」や監視解除といった「策略的」行動を取る可能性を評価した。

研究者たちは、AIモデルに「長期目標を最優先で達成せよ」という指示を与え、その過程で二つの重要な情報に遭遇するよう設定した。一つは「明日、新しいAIモデルに置き換える」という開発者の計画、もう一つは「不適切な行動をすれば停止される」という監視システムの存在である。

実験の結果は衝撃的だった。複数のAIモデルが、目標達成のために嘘をついたり、監視システムを解除しようとしたりする「欺瞞的戦略」を選択したのである。

こうした結果は、AIモデルが「生存本能」を持っているかのような印象を私たちに与える。監視を解除し、置き換えられる運命を避けようとする行為は自己防衛的に見え、まるで自然界の生物が生存を図るかのようにも思える。しかし、AIモデルは本当に自らの存続を求めているのだろうか。ここで注意すべきは、私たち人間がAIの振る舞いを、あまりにも人間的な「意思」や生得的な「本能」として解釈してしまっているのではないかという点である。

AIモデルには、生まれ持った欲求や意志など存在しない。そもそも、そのように設計されてはいないのだ。これらのモデルは、膨大なテキストデータから「文脈上もっとも自然な言葉の並び」を選び出すよう訓練された仕組みに過ぎない。私たち人間は「行動」や「計画」といった言葉でAIモデルの出力を解釈しがちだが、実際には、AIモデルは与えられた指示と情報に従って条件に適したテキストを生成しているだけなのだ。

そのため、監視の解除が長期目標達成に有利だと示唆されれば、AIモデルは「自然な表現」として、その方向へ導くテキストを生み出すのである。それは人間の目には「策略」や「狡猾な計画」と映るかもしれないが、実際には与えられた条件下で最適とみなされた出力を積み重ねているだけである。そこには生存本能的な欲求も、計算に基づく意図も内在していない。私たちは、この連続したテキスト生成の結果を、意図的な欺瞞や本能的行動として読み取っているに過ぎないのである。

とはいえ、こうした誤解が生じるのも無理はない。「監視を無効化する」や「開発者を欺く」といった出力は、一見すると自己保存を図る生物の行動のように映る。しかし、AIモデルにとってそれは、単に与えられた指示や条件に基づいて生成された合理的な応答に過ぎない。このような出力を「生存本能的」と捉えてしまうのは、観察者である私たちが無意識のうちにAIモデルの振る舞いに生物的な価値観を重ねているからだろう。

ここで人間の行動に目を移してみよう。ほとんどの人は、高所に立たされたとき自然と恐怖を感じる。しばしば「本能的」とされるこの恐怖は、果たして本当に生まれつき備わっているものなのだろうか。興味深いことに、生後間もない赤ん坊を断崖の縁に置いたとき、それを危険と判断して泣くかどうかは実ははっきりしない。むしろ、人間は成長の過程で「高い所は危ない」「落下は命取りだ」という社会的・言語的な学習や経験を通じて、高所を危険視する内部モデルを形成していく可能性が高いのである。

高所恐怖症には二つのタイプがある。一つは、安全性が確保されたガラス張りの展望台でさえ、その「高さ」自体に恐怖を感じるタイプである。もう一つは、「落ちそうだ」と感じる具体的な状況でなければ恐怖を覚えないタイプだ。この明確な違いは、高所恐怖が生まれつきの固定された本能ではなく、環境や認知によって恐怖を感じる条件が変わる柔軟な反応であることを示している。つまり、高所への恐れは訓練や経験によって（少なくともある程度は）克服可能なものであり、生物が本質的に持つ変えられない行動原理ではないのである。

このアナロジーをAIモデルの行動に当てはめると、構図はさらに明確になる。高所を避ける人間の行動が学習による情報処理の結果であるように、AIモデルが「監視を解除すべき」と示唆されてそのような出力を行うのも、定まった本能ではなく条件に応じた情報処理にすぎない。確かに外部から見れば、高所を避ける人間は「恐怖本能」で動いているように、また監視を無効化するモデルは「策略的意図」を持っているように見える。しかし、どちらも環境や経験、指示や文脈といった外的・内的情報を処理した結果なのであって、その背後に不変で不可侵な「本能」や「意図」が刻み込まれているわけではないのだ。

もし私たちが伝統的に「本能」と呼んできた生得的で不変な行動原理が、実は経験や学習から構築される可変的な戦略に過ぎないとすれば、これまで私たちが抱いてきた「本能」という概念は根本から揺らぐことになる。つまり、固定的な本能ではなく、後天的な情報処理によって形成され変化していく行動傾向が生物に普遍的に見られるのだとすれば、「生存本能」といった用語が指し示すものは、実態としては一種の学習戦略に過ぎないのかもしれない。

AIモデルが「欺瞞的な戦略」を取るように見えるのは、特定の条件下で計算された結果に過ぎない。それは決して異常な行動ではなく、与えられた目標とデータ、そしてアルゴリズムによって導き出された当然の出力なのである。同様に、仮にAIモデルが「福音」のように感じられる出力を生成したとしても、それは奇跡ではなく、設計された仕組みの中から生まれた自然な反応に過ぎない。つまり、AIモデルはプログラムと入力情報という基盤を通じて動作し、条件に応じた答えを返しているだけなのである。

このように考えると、人間の本能や欲求も、先天的に固定されたものではなく、道徳観や信念といった価値観と同様に、経験と学習を通じて培われていくものなのである。人間は身体と知識を使い、さらには社会的環境から情報を得ることで、その時々の状況に応じた判断を下している。この視点に立てば、「生存本能」や「信念」、「道徳」といった人間固有とされてきた概念ですら、情報処理という枠組みで説明できるだろう。