【徹底解説】間接プロンプトインジェクションとは?

間接プロンプトインジェクション:AIの新たなセキュリティ課題

人工知能(AI)が社会生活のあらゆる面で活用されるようになる一方で、AIを悪用する新たな攻撃手法が研究者たちの間で注目されています。特に大規模言語モデル(LLMs)をターゲットとした攻撃方法、間接プロンプトインジェクションについての最新の研究をここで紹介します。

今回は、LLMsを使ったアプリの開発者向けに、概念的な話をします。

間接プロンプトインジェクションの具体的な方法や解決方法が知りたい方は、会社HPからお問い合わせください。 
https://wizardai.jp/

間接プロンプトインジェクションは、攻撃者が事前にウェブサイトや画像といったデータに悪意のある指示文を紛れ込ませ、あるいは一般ユーザーに悪意のあるプロンプトを入力を誘導するという手法です。これにより、攻撃者は間接的にLLMsに指示を与えてその挙動を乗っ取ることが可能となります。以下に具体的な手法をいくつか紹介します。

  1. Passive Methods:攻撃者は事前にウェブサイトやレポジトリに悪意のある指示文を忍ばせておき、LLMsアプリがそちらを参照した際にその挙動を乗っ取る方法です。

  2. Active Methods:攻撃者は能動的に悪意のある指示をLLMsアプリに送ります。例えば、本文に指示文を書いたメールを送りつける手法があります。

  3. User-Driven Injections:攻撃者がwebサイトで悪意のあるプロンプトを紹介し、訪問者がそのプロンプトをLLMsアプリに入力するように誘導する手法です。

  4. Hidden Injections:悪意のある指示がシステムに検知されない為に、攻撃者が悪意を秘匿する手法の総称です。悪意のあるプロンプトを後にLLMアプリに自動的にアップロードさせる命令を使った手法や、マルチモーダル入力の画像に指示を隠す手法などが考えられます。

これらの攻撃方法により、LLMsがもたらす脅威が増える可能性があります。特に次のような分野での懸念があります。

  • Information Gathering:攻撃者が機密情報などを盗む脅威です。

  • Fraud:LLMsアプリがフィッシングなどの詐欺に加担する脅威です。LLMsアプリがユーザーに怪しいURLを紹介する場合などが考えられます。

  • Instruction:LLMsが攻撃者にシステムへの持続的なバックドアを提供する脅威です。

  • Malware:LLMsがマルウェアを広める脅威です。LLMsアプリがユーザーにリンクを踏ませてマルウェアを拡散することや、LLMs自身がワームのように他のユーザーに影響を拡大させていく方法が考えられています。

  • Manipulated Content:LLMsアプリへの入力やLLMsアプリの出力が、恣意的に変更される脅威です。

  • Availability:Dos攻撃などによって、LLMsが使いものにならなくなる脅威です。

まだまだLLMsアプリのセキュリティについて議論されることは少ないですが、これからAIに関連するセキュリティ課題が重要となってくるでしょう。

参照論文👇



AIに関するご相談はこちら

株式会社WANDでは、ChatGPTをはじめとするGenerative AIに関する研究開発機関「LUMOS Lab 」を運営しています。

実際に自分たちでサービス開発や研究をしているからこそわかる知見をもとにAIに関する事業開発コンサルティングをサービス提供しております。
「AIに関してディスカッションをしたい」「サービス開発をしてほしい」などございましたら、お気軽にお問い合わせください。

お問い合わせフォーム
https://wizardai.jp/


この記事が気に入ったらサポートをしてみませんか?