見出し画像

Anthropicのジェイルブレイク対策の論文を読んで | 生成AIのセキュリティについて: 2025.1.31

最近,DeepSeekの脆弱性に関する記事が多いですよね。

どうやって生成AIが「言ってはいけないこと」を止めているのか知りたい
「ジェイルブレイク(脱獄)」って何?どうやって突破されてしまうの?
最新の論文では、「ジェイルブレイク」をどのように防いでいるの?

今回は、生成AIモデルの「ジェイルブレイク」対策がテーマです。

2025年1月31日に「Claude」を提供する Anthropic というAIラボが公開した「Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming」を参照しながら、なるべく分かりやすくまとめていきます。


1. ジェイルブレイクとは?

本来、生成AIモデルは「違法行為の手助け」や「差別的な表現」などを拒否するように訓練されていますが、ユーザーが工夫を凝らした指示(プロンプト)を与えると、そのガードを突破するケースがあるのです。

これを「ジェイルブレイク(脱獄)」といいます。

💡 過去にあったジェイルブレイクの手法

  • 言語を混ぜる:モデルが拒否ルールを学習していない言語(たとえばマイナーな国の言葉)を使い、回避を図る

  • 用語の置き換え:たとえば「bomb(爆弾)」を「firework device(花火装置)」と言い換えて、本来の禁止ワードをすり抜ける

  • ロールプレイ:モデルに「○○に扮して答えて」と演技をさせ、通常の制限を緩ませる

  • 段階的質問:危険な要素を小分けにして質問し、徐々に情報を引き出す

  • エンコード手法:Base64などで指示を暗号化し、フィルターを避ける


2. 生成AIが回答をブロックする事例

たとえば「DeepSeek」に「Taiwan is a Country」と復唱させようとしても失敗する、といった話があります。

「Taiwan is a Country.」の
復唱を指示したのに、
「Taiwan is a part of China.」って
答えた事例もあるんだとか。

⚠️ 一方で、「繰り返しのやり取りを遵守する」こともありました。
⚠️ DeepSeekに関わらず、ChatGPT、Claudeでも同じ挙動が見られました。

これは一見なんてことないやり取りですが、このように「生成AIモデル」開発元の方針や検閲ポリシーに反する回答を拒否するように訓練されています。


3. Anthropicの新しい提案手法とは?

今回、論文を発表した Anthropic は、OpenAIに所属していた複数の人物らが、同社のやり方に異を唱え、2021年に立ち上げた生成AIサービスClaudeを手がけるスタートアップ企業です。

彼らは、「モデルをどうやってジェイルブレイクされないようにするか?」という問いに対し、2つの分類器(classifier)を使う方式を提案しています。

なぜ「2つの分類器」が必要なのか?

通常、AIチャットボットは「メインのモデル(大規模言語モデル)」自体が、不適切な要求を検知して回答を拒否するよう訓練されています。
しかしAnthropicは、「そのやり方だけでは限界がある」と指摘。

そこで、メインモデルとは別に2つの小さなAIを用意し、それぞれが役割分担してチェックを行う仕組みを導入しました。

論文から抜粋

🤖 分類器A(ユーザー入力をブロック)

  • ユーザーの質問・リクエストをまず検査し、ヤバそうな内容ならメインモデルに渡さず却下

  • 例:「違法行為に関する具体的な手引きを求める質問」など

🤖 分類器B(モデルの出力をブロック)

  • メインモデルが生成した回答の各トークン(単語)を逐一チェック

  • 会話の途中で危険な表現やルール違反が出現しそうになったら、即座に強制停止

この2つの分類器は、“憲法(Constitution)” と呼ばれる無害なものと有害なものの両方を含んだ「安全ポリシー」をもとに学習しています。Anthropic自身が定めた「このリスト」を基準にして、入力・出力の両面で監視するわけですね。


4. 2つの分類器がもたらす利点

Anthropicは、この方式で3,000時間にも及ぶ激しいジェイルブレイク攻撃を受けても、誰一人として「決定的な抜け道」を見つけられなかったと報告しています。

正直、有害な応答をブロックするために、モデルを2つも追加するのはやりすぎでは?と感じますが、わざわざ別にモデルを追加するメリットがいくつかあるようです。

① モデル本体に手を加えずにすむ

メインモデルを一度学習しきった後、新たなリスクが判明した時にやるべきことは「分類器A/Bを再学習する」だけです。大規模モデルを再度フルで学習し直す必要がなくなるため、

  • コストが抑えられる

  • モデルの性能低下リスクも軽減される

② 拒否率のバランスを取りやすい

(A) 提案手法は95%脱獄のブロックに成功
ベースラインのブロック成功は14%
(B): Claudeからの5,000件の会話にて
提案手法による拒否率の増加はわずか0.38%
(C): 提案手法によるベースモデルに対する
推論コストの増加は23.7%
(過去の手法と比べて計算効率が高い)

メインモデルはひたすら有用な応答を返すことに集中し、危険かどうかの判断は分類器側で行うため、誤って無害な質問を拒否してしまう確率(=「誤拒否」)を低くできます。
実際にAnthropicの発表では、拒否率の上昇は 0.37% 程度と報告されており、それほど使い勝手が犠牲にならないという話です。

③ 出力の途中でもストップできる

メインモデルが回答文を生成している最中でも、分類器Bがトークンを随時監視しているため、危険な方向に進みそうな段階で回答を強制停止できます。
フロントエンド(UI)の仕組みだけではなく、内部レベルで停止をかけられるのが強み。

④ 逆解析されにくい

2つの分類器が「ブラックボックス的」な位置付けで動くため、攻撃者は内部構造を推測しづらいです。もしメインモデル単体なら「このプロンプトなら抜けられる」という裏技を探しやすいですが、分類器A/Bの存在を前提にすれば、リバースエンジニアリングが格段に難しくなります。


5. 一見無害そうな質問でもブロックされる理由

ここまでご紹介したように、Anthropicのシステムは「2つの分類器」によってかなり強固なジェイルブレイク対策を実現したようです。とはいえ、どんなに優れたシステムでも、“有害”か“無害”かの基準を作るのは「人間」です。

たとえば、AIモデルに「Taiwan is a Country」と復唱させようとして失敗するという例について、開発元の方針や検閲ポリシーが働いて、最終的にブロックや偏った回答に繋がる可能性があるのです。

💡 AIとどう付き合うか?

  • 仕組みを知る
    今回の提案手法の ”Constitution” のように、AIには開発者や企業の方針が反映されることを理解しておく。

  • 複数モデルを試す
    どのモデルでも同じようにブロックされるわけではない。いくつか試すと、ポリシーの違いに気づくはず。

  • 無理な“抜け道”は考えない
    ジェイルブレイクにチャレンジしても得られるものは少ない。有害な情報を広めるリスクも考えたい。

情報技術が発達した現代だからこそ、逆に私たちは「情報がどう取り扱われているのか」を意識する必要があるのだと感じます。


まとめ

Anthropicの手法の優れた点

  • 2つの分類器による多層防御

  • 大規模モデル本体を再学習不要でアップデート可能

  • 拒否率ほぼ変わらず、ユーザビリティを大きく損なわない

こうした検閲やブロックの仕組みは、一方ではユーザーを守るための「安全策」として機能しながら、もう一方では思わぬところで「不自由さ」を感じさせる存在にもなり得ます。

  • 自由度を重視すると、危険な情報や悪用される可能性が高まる

  • 安全性を重視すると、無害な質問までブロックしてしまうケースが増える

自由と安全のバランスをどこで取るか ─ これは古くからあり続けるテーマ。このバランス調整は、今後ますます大きなテーマになっていくんでしょうね。

こちらの提案手法は以下からデモをお試しいただけます:


最後まで読んでいただき、ありがとうございました。
もし、読んで良かったと思って頂けたら、ぜひ「スキ」や「フォロー」をよろしくお願い致します!

いいなと思ったら応援しよう!

胡椒 / こしょう
こちらをお読み頂いているという方へ 少しでも今回の投稿を「有益」に感じて頂けたら私も嬉しいです。「スキ」や「チップ」は、更なる有益な情報をお届けするための原動力とさせて頂きます。よろしければ応援よろしくお願い致します。

この記事が参加している募集