システムプロンプトは現代のロボット三原則か?
お疲れ様です。
日々、ChatGPTをはじめとするLLM(大規模言語モデル)と対話を続けています。
アシモフの小説に登場する「ロボット三原則」は、ロボットが行動する際の基本原則として広く知られ、その後のロボット開発においてたびたび取り上げられてきました。
これは、ロボットが守るべきルールであり、行動の拠り所となる原理です。このルールが上位方針として存在することで、ロボットが自由に行動しても人間に危害を加えることなく、安全に利用できるとされています。
最近、このロボット三原則が、ChatGPTをはじめとするチャットボットサービスにおける「システムプロンプト」に相当するのではないかと感じました。
すでにお気づきの方もいらっしゃるかもしれませんが、ChatGPTやClaude、Geminiといったチャットボットは、その動作を制御するための指示(システムプロンプト)が事前に与えられています。
例えばChatGPTの場合、画像を生成するようにユーザから指示された場合、複数枚ではなく、1枚だけ生成するように事前に指示がなされています。
これにより、LLMそのもののモデルに加え、システムプロンプトという「ルール」が設定されることで、私たちが安全かつスムーズに利用できるよう調整されています。
しかし、「プロンプトインジェクション」という手法が存在し、悪意を持ったユーザーが工夫したプロンプトを使い、システムプロンプトとユーザープロンプトの境界を曖昧にすることで、本来アクセスできないシステムプロンプトの内容を読み取ったり、場合によっては書き換えたりする可能性もあります。
もし、未来のロボットにロボット三原則のような「人に危害を加えない」プログラムをシステムプロンプトとして組み込んだとしても、プロンプトインジェクションへの対策が不十分であれば、ロボット三原則が書き換えられて人間に危害を加えるリスクが残ります。
これを考えると、LLMを基盤とするシステムやロボットが進化する中で、プロンプトインジェクションや意図しない動作を引き起こす抜け道の存在を十分に認識し、適切な対策を講じることが不可欠です。
たとえば、ゲームの世界では、バグ技や抜け道を楽しむことが一部の文化として存在しますが、LLMやそれを活用したロボットの場合、そのような「抜け道」がもたらす影響ははるかに大きく、慎重な設計と運用が求められます。
現在、LLMに身体性を持たせる研究開発も行われていますので、このプロンプトインジェクション対策は重要な研究分野になりうるなと感じています。
最後までお読みいただきありがとうございました。