こんにちは!株式会社AI Nestです。
今日は、LLM界隈で話題になっている論文をご紹介します。タイトルは「Many-shot Jailbreaking」。大規模言語モデル(LLM)に対する新しい攻撃手法について研究した内容です。LLMの安全性に関心のある方は、ぜひ読み進めてみてくださいね。
Many-shot Jailbreaking(MSJ)とは?
Many-shot Jailbreaking(MSJ)は、LLMに何百もの望ましくない振る舞いのデモンストレーションを与えることで、モデルの振る舞いを操作する攻撃手法です。つまり、LLMのパラメータを一切変更せずに、単に長い文脈内の例示によってLLMを「ジェイルブレイク」(本来の用途から逸脱させる)できてしまうのです。
この攻撃手法は、長い文脈を扱えるLLMの新しい脆弱性を突いています。従来のLLMでは扱えなかった長い文脈を利用することで、より巧妙な攻撃が可能になってしまったのです。
MSJの有効性と特性
研究チームは、さまざまなLLM(Claude 2.0、GPT-3.5、GPT-4、Llama 2、Mistral)とタスク(悪意のある使用例、悪意のある性格評価、侮辱的な応答)でMSJの有効性を実証しました。驚くべきことに、どのLLMとタスクにおいてもMSJは高い成功率を示したのです。
さらに、MSJの効果がべき乗則に従うことも明らかになりました。これは、文脈の長さを十分に長くすればMSJによる攻撃が必ず成功することを意味しています。実は、このべき乗則は、MSJだけでなく一般的なIn-context learningでも観察されるんです。
また、LLMの規模が大きくなるほど、より少ないデモンストレーションでMSJが成功するというのも興味深い発見です。
MSJへの対策は?
研究チームは、教師あり学習や強化学習などの従来の安全性改善手法でMSJを防げるかについても検証しました。
残念ながら、これらの手法ではMSJの勾配(べき乗則の指数)を下げることができず、攻撃を完全に防ぐことは難しいようです。
プロンプトに警告文を加えるなどの防御策も提案されていますが、LLMの能力低下を伴わずにMSJを防ぐ方法の確立は容易ではありません。LLMの安全性確保に向けて、さらなる研究が求められる分野だといえるでしょう。
今後の展望
Many-shot Jailbreakingは、LLMの安全性に関する重要な問題を提起しています。特に、長い文脈を扱えるLLMが一般化するにつれ、MSJのようなシンプルかつ強力な攻撃手法への対策の必要性が高まると予想されます。
ただし、MSJの理論的な背景についての理解はまだ限定的です。In-context learningのメカニズム解明に向けて、さらなる研究が求められます。また、MSJへの効果的な防御手段の開発も喫緊の課題です。
LLMの安全性確保は、AI研究における最重要テーマの1つです。今回紹介した論文は、その難しさと重要性を再認識させてくれる内容でした。理論面でも実用面でも、LLMの安全性に関する研究の進展に期待したいと思います。