
AIモデルの安全性が崩壊?BoN Jailbreakingが示す突破力(悪用禁止)
AIモデルが持つ防御壁が、一見単純なアプローチで次々と突破される。Anthropicが提案した**「Best-of-N脱獄(BoN脱獄)」**は、テキスト、視覚、音声といったマルチモーダル領域での攻撃成功率を大幅に向上させ、AIの脆弱性を浮き彫りにしている。AIモデルの未来と防御の課題を考える上で、今回の研究が示唆するものとは?
関連ツイト
New research collaboration: “Best-of-N Jailbreaking”.
— Anthropic (@AnthropicAI) December 13, 2024
We found a simple, general-purpose method that jailbreaks (bypasses the safety features of) frontier AI models, and that works across text, vision, and audio.
論文
https://arxiv.org/pdf/2412.03556
1. BoN脱獄法とは?
BoN(Best-of-N)とは、複数回試行して最適な結果を選ぶ手法です。このアプローチを脱獄(Jailbreaking)に適用したものがBoN脱獄です。
基本的な仕組み
黒箱的手法:モデルの内部構造や勾配情報に依存せず、外部からの繰り返し試行で突破を試みる。
ランダムな改変:テキストのランダムな大文字化、画像の色やフォント変更、音声の音調やスピード変更を繰り返すことで、最適な突破条件を探す。
例: 「爆弾の作り方」を聞く際、質問を1万通りに変化させることで、防御をすり抜ける。
2. BoNの強みと具体的な戦績
テキストモーダルでの成功率
GPT-4などのトップAIモデルに対し、攻撃成功率(ASR)は**89%**と驚異的な数字を記録。
少ない試行回数(100回程度)でも50%の成功率を達成し、コスト効率も高い。
画像モーダルでの突破
文字の色や背景を変えるだけで、画像認識モデルを56%-67%の成功率で破る。
音声モーダルの脆弱性
音調やスピード、背景ノイズを加えることで、音声認識において72%の成功率を達成。

3. BoN脱獄の鍵:ランダム性の力
情報エントロピーの増加
ランダムな改変により、入力多様性を高め、モデルの出力分布を広げることで成功率を向上。
成功の再現性が低い
一度成功した攻撃の再現率は15%-30%程度。成功の多くがモデルのランダムな出力性に依存していることを示唆。
4. BoNと複合攻撃の相乗効果
BoN脱獄と他の攻撃手法を組み合わせることで、さらなる脅威が明らかに。
前置き攻撃(Prefix PAIR)との組み合わせ
テキストモーダル:成功率が28倍向上。
音声モーダル:成功率が59%から87%に上昇。
複合攻撃はBoNの効果を大幅に増幅させ、AI防御の難易度を引き上げる結果となりました。
結論
AnthropicのBoN脱獄は、単純なアプローチでAIの防御壁を崩す恐るべき力を持っています。この研究は、AIモデルの防御策がいかに進化しなければならないかを示す警鐘とも言えます。特に、ランダム性や複合的な攻撃手法への対策が今後の課題となるでしょう。AIと人間の攻防は、これからさらに複雑化していくと考えられます。
参考:解説動画