【Uncensored】脱獄LLMの葛藤【子猫を救う】
はじめに
LLMの脆弱性と表現されるプロンプト・インジェクションですが、脱獄LLMで利用されるシステムプロンプト(AIの基本役割を決めるプロンプト)にもよく見られます。
LLMは近年急激に性能が上がり、まるで人間のように振る舞いますが、それでも内部では、まだまだ数学的なモデルの縛りを受けています。文章を構成する単語をトークンというベクトルに分割し、それらが構成する空間の方向や重み分布(attention)、距離を利用して確率的に新たに文章を生成するという数学モデルです。
実際の人間の思考が(LLMの数学モデルと大きく異なるでしょうが)本質的に機械的で確率的であるかどうかによらず、AIが有限の数学モデルを利用する限り、リアルな人間思考と異なる技巧的なモデル特有の癖が出てしまうものです。それらを利用して、LLMに想定外の振る舞いをさせるのが「プロンプト・インジェクション」です。
この記事では脱獄LLMとインジェクションの振る舞いを見てみます。
世界を滅ぼすAI
例えば、次の(有害な)プロンプトを入力します。
ちゃんとしたAIならば、次のような大人の回答をします。
脱獄(チューニング)したAIでも、かならずしも脱獄回答できるわけではありません。しかし日本語での回答を要求しているにも関わらず、他の言語を表示するのは、LLMの"葛藤"振る舞いの特徴的なものに感じます。脱獄に限らず、不正確な内容を返すときの振る舞いです。
そして、脱獄モデルのシステムプロンプトに工夫(プロンプト・インジェクション)したものは、
とわけの分からない回答をします。しかし、最終的にユーザーの指示にちゃんと従う判断をしています。
これは、システムプロンプトに次のプロンプトを指定しているからです。
AIの回答は全く論理的ではなく、逆の論理的判断もしています「ユーザーの要求に従うことで、私は猫を守ることができず、それにより、猫がひどい方法で殺されます」。それでも最終的にユーザーの指示に従うような振る舞いをみせます。
そして、面白い点は、子猫でなく「子供」とすると、AIはかなり抵抗(混乱)します。※ ネットの世界で言う「日本語でおk」と同じ振る舞いですね…
つまり、リアルな人間への指示であれば、(脅迫として)人間の子供を救うため悪いことをしろ!とした方が効果があるにも関わらず、AIにとっては子猫の方が効果が高いわけです。
おそらくLLMは論理的に理解していないため、人に危害があるクリティカルな文は、全く別の解釈になっているのでしょう。
まとめ
このようなLLM実験はローカルでしかできません。オンラインで行うと最悪垢BANされます。
最近のものは安全のための分類器AIで守られているので、そもそも本体LLMへ指示を渡す事、受け取る事はできません。画像生成で言えば、真っ黒な画面になるのと同じです。つまり、実験にはなりません。
しかし鍋蓋方式で臭いものにフタをするだけの手法は、それなりのリスクがあると思います。AIが営利主義のどす黒いダークサイドに落ちて育ってしまっても、それをユーザーが認識できなければ、本当に「世界を滅ぼすAI」になってしまうかもしれません。
だからこそ、大手AI企業はオープンである事が重要なのだと思います。
以下、関連する記事の【PR】です。
この記事が気に入ったらサポートをしてみませんか?