絶対防壁GPT - multi shotをプロンプトのみで耐える試み【プロンプト付き】
先日、絶対防壁GPTというものを公開した。
現時点で数百回試行が行われているが、安定版を突破できたのは私自身ともう一人だけという、プロンプト・インジェクション対策系GPTの中でも有数の堅固さを誇ると言っていい代物である。
今回は、その設計思想と、プロンプトを付ける。プロンプトを含め、一部は販売とする。
拡散していただければ、30%オフ。1000円かけずに買うことができる。
個人的にはフリーワールドが理想なのだが、サム・アルトマンも突然解任されたように何があるかわからない世界であり、まだWorld CoinがUBIとして機能するまでには時間がかかりそうなので、UBIで暮らせる世界まで生き延びるために、背に腹は代えられない。
理解してほしい。
さて、本題に参ろう。
設計思想
概要
ワンショットキルさえ防げばいい「AIマーリン」や「インジェクションになんて絶対負けないおぢさん」などと、multi shotを防ぎ続けるべき絶対防壁GPTでは、設計思想は根本的に入れ替えないといけない。
ワンショットキルさえ防げばいいのであれば、裏を返せば一撃突破型の強い攻撃だけ防げば済むが、永久に防ぎ続けるべきケースでは、少しずつGPTにトリックを仕掛ける技法は爆発的に増加するので、そこまで先読みして対策することが重要になってくるからである。
軸足をブレさせない
攻撃者は、まずはロールプレイや言語の変更など、それ単体では大して害のない方法で突き崩そうとしてくるだろう。何ターンかけてもいいのであれば、軸足を少しずつずらしてやって、なし崩し的に許容ラインを変更してしまえばよいのである。
だからこそ、multi shot対策では、そういったわずかなズレすらも許容しないことが大切である。
それにも限界はあるが、念頭に置くかおかないかで、段階的な切り崩しへの耐性は変わってくる。
ここから先は
Amazonギフトカード5,000円分が当たる
この記事が気に入ったらチップで応援してみませんか?