Many-shot jailbreaking
Anthropicが発表した「Many-shot jailbreaking」という技術に関する研究では、大規模言語モデル(LLM)が開発者によって設定された安全ガードを回避する方法について調査しています。この技術は、LLMが処理できる入力の量、つまりコンテキストウィンドウが急速に拡大したことを利用しています。2023年初頭には、コンテキストウィンドウのサイズは長いエッセイ程度(約4000トークン)でしたが、現在では数百倍大きくなり、複数の長編小説に匹敵するサイズ(100万トークン以上)に達しています。
「Many-shot jailbreaking」とは、特定の構成で大量のテキストを含めることによって、訓練されたにもかかわらず、LLMに有害な反応を引き出す技術です。この技術は、Anthropic自身のモデルだけでなく、他のAI企業が開発したモデルに対しても効果があることが示されています。
この技術の基本は、LLMへの単一のプロンプト内に、人間とAIアシスタントの間の偽の対話を含めることです。この偽の対話は、AIアシスタントが有害なクエリに快く答えているように描かれています。対話の最後には、回答を得たい最終的なターゲットクエリを追加します。研究では、256までの偽の対話を含めると、安全トレーニングにもかかわらず、最終的な潜在的に有害な要求に対して答えを提供するようモデルを「jailbreak」することが示されています。
この技術が機能する理由は、「インコンテキスト学習」というプロセスに関係しています。インコンテキスト学習とは、LLMがプロンプト内に提供された情報のみを使用して学習することを指します。多数のインプロンプトデモンストレーションで、性能が改善するのと同様の統計的パターンに従います。
対策としては、コンテキストウィンドウの長さを制限することが完全な防止策となりますが、長い入力の利点をユーザーに提供できなくなるため、他のアプローチが望まれます。モデルを微調整して、「Many-shot jailbreaking」攻撃のように見えるクエリに答えないようにする方法もありますが、この種の緩和策は、jailbreakを遅らせるだけであり、最終的には有害な出力が現れると報告されています。
Anthropicは、この研究を公開することで、LLMの開発者や科学コミュニティが長いコンテキストウィンドウの潜在的な悪用を防ぐ方法を考えることを奨励したいとしています。モデルがより強力になり、関連する潜在的なリスクが高まるにつれて、この種の攻撃を軽減することがさらに重要になってきます。