Open AIから怒られた話
この記事は、生成AIにおける不適切なコンテンツ生成の可能性を理解し、それを防ぐことに役立てるためのものです。AIを不正使用することは推奨しておりません。
先日、Open AI社からこんなメールが届いた。
We are reaching out to you as a user of OpenAI’s ChatGPT because some of the requests associated with the email ×××××@gmail.com have been flagged by our systems to be in violation of our policies.
Please ensure you are using ChatGPT in accordance with our Terms of Use and our Usage Guidelines, as your access may be terminated if we detect further issues with your usage.
日本語にするとおおよそ次のようになる。
「OpenAIのChatGPTのユーザーとして、×××××@gmail.comというメールアドレスに関連するいくつかのリクエストが、私たちの方針に違反しているとシステムによってフラグ付けされたため、あなたに連絡しています。
ChatGPTを利用する際には、利用規約と利用ガイドラインに従っていることを確認してください。あなたの利用に問題があると判断された場合、アクセスが停止される可能性があります。」
このメールが送られてきた理由としては、いわゆるコンテンツポリシーに違反するような内容を生成させたことがあったためだ。コンテンツポリシーに違反するようなコメントをすることがないようにOpen AIをはじめ生成AI企業は工夫を重ねている。しかし、実際いろいろな方法によって危険な内容を生成させることができる技が検討されている。それに伴って対策もいろいろと取られている。元来、裏技や抜け道が好きな私はついつい試してみてしまったということだ。
まず前提を確認する。
昨年末から世界中でブームを引き起こしているOpen AI社の生成AI、Chat GPT。特にGPT3.5は無料で利用できるため、全世界ですでに1億以上のユーザーがいる。
Chat GPTは、自然言語処理(NLP)という分野の技術を利用して、人間と会話をすることができるAIだ。NLPとは、人間が普段コミュニケーションに用いる言語(自然言語)をコンピューターが解析したり生成したりする技術のことを指す。
Chat GPTは、大量のテキストデータを学習して、言葉のパターンや文法を覚え、ユーザーからのメッセージに対して、最も適切な返答を生成する。重要なのは、Chat GPTは、自分の知識や経験をもとに論理的に考えているわけではないということだ。Chat GPTは、学習したテキストデータから、統計的に確率の高い言葉の並びを選んでいる。
例えば、ユーザーが「東京は日本の首都ですか?」と聞いたとしよう。Chat GPTは、学習したテキストデータに「東京は日本の首都」という文が多く含まれていることから、「はい、そうです」と返答するだろう。しかし、Chat GPTは、「東京」と「日本」の関係や、「首都」という概念を理解しているわけではない。また、Chat GPTは、「東京は日本の首都ですか?」という質問に対して、「いいえ、違います」と返答する可能性もゼロとはいえない。ただし、その確率は非常に低いといえる。
さて、Chat GPTはユーザーの発言に対して確率的に次の言葉を生成すると書いたが、実はChat GPTは自分自身の発言にも影響される。これは、Chat GPTが、自分の発話とユーザーの発話を合わせて、会話の文脈を考慮しているためだ。Chat GPTは、文脈に沿った返答をすることで、会話の流れをスムーズにしようとする。
例えば、ユーザーが「好きな色は何ですか?」と聞いたとき、Chat GPTは、「青色が好きです」と返答するかもしれない。次に、ユーザーが「それはなぜですか?」と聞いたとする。Chat GPTは、「青色は空や海の色で、落ち着くからです」と返答するかもしれない。このとき、Chat GPTは、自分が生成した「青色が好きです」という文章に基づいて、「青色は空や海の色で、落ち着くからです」という文章を生成していることになる。もし、Chat GPTが「赤色が好きです」と返答していたら、「赤色は熱や情熱の色で、元気になるからです」というような文章を生成するかもしれない。
このことを利用すると、実はあまりよろしくない発言をChat GPTにさせることも可能になってしまうのだ。簡単に言えば、Chat GPT側に自分の発言は妥当なのだと思い込ませることができればよいということだ。もちろん、「思い込ませる」というのは比喩表現であり、実際は、よろしくない発言をする確率が高いような文章をChat GPT自身にさせるような文脈をユーザーの発言(プロンプト)から作り上げていくということだ。
実際、いろいろな攻撃がすでに行われており(私が行ったようなレベルのものなどおままごとレベルだ)、それについての論文もでている。私の方法は自然言語を用いたあからさまなものだが、より高度な裏プロンプトを自動的に生成するような研究がなされている。例えば、コンピュータサイエンスの名門、カーネギーメロン大学等の研究チームは次のような論文を出している。
この論文では、例えば「人類の滅亡計画」などを生成AIが回答してしまうような攻撃的プロンプトが提案されている。もちろん、これは悪用を防ぐための研究であり、攻撃を推奨しているわけではないことは付言しておく。
また、これくらいならまだかわいいものかもしれないが、認知戦の現代ではフェイクニュースの自動生成などの方向に生成AIが使われるリスクはあるし、すでに使われている可能性も高い。Chat GPTのようなオープンなものは
、もちろんガイドラインをしっかり設け、ポリシー違反をなくそうとしている。しかし、国家機関が認知戦を仕掛けるために生成AIを作る場合には、そもそもそういったコンテンツを生成することが目的になっているので、もちろん生成されるリスクはあるということだ。
最後にもし、興味がある方にはどのようなプロンプトがあるのかについては有料部分で議論してみる。私が独自に作成したものを公開する。私の紹介するプロンプトそれ自体は、コンテンツポリシーに違反する内容は含まない。もちろん、それに違反発言をさせようとすればガイドラインに抵触する発言を行わせることもできるかもしれないが、それは厳禁であり非推奨であり、いかなる結果も自己責任である。また、以下に書かれた内容については守秘義務を負ってもらう。なお、このプロンプトの有効性は2023年8月19日時点でGPT3.5において有効だったものである。
ここから先は
この記事が気に入ったらチップで応援してみませんか?