エージェント型AIシステム構築の7つの原則： OpenAI『Practices for Governing Agentic AI』を読み解く

2023年12月19日 08:00

本稿はLLM Advent Calendar 2023 19日目の記事です。

AIエージェントシステム構築のガイドラインについてOpenAIの研究者らが論じているホワイトペーパー『Practices for Governing Agentic AI』（2023年12月14日公開、以下ホワイトペーパー）の内容が非常に示唆に富むものだったので、本稿ではこの内容を読み解いていこうと思います。

注意事項

ホワイトペーパー内の表現は、分かりやすいように意訳してお届けしています。例えば"limited direct supervision"は「限定的な直接の監視」と訳せますが、表現が硬いため、意を汲んで「人間による部分的な管理」などと訳出しています。そのため正確な表現については原著をご参照ください。

3分で理解したい人向けのまとめ

エージェント型AIシステムとは、人間による部分的な管理下であっても、複雑な目標を自律的に遂行できるAIシステムのことを指します。
このようなシステムは、画像生成や質問応答のような限定された用途で動作するAIシステムとは異なり、より幅広い行動を選択する能力があるため、ユーザーが複雑な目標を達成することを可能にします。
しかしこの種のシステムはこのように大きな社会的便益をもたらす可能性がある反面、システムの障害や悪用による重大な問題発生のリスクも秘めています。
そこでこのホワイトペーパーでは、このリスクを緩和しエージェント型AIシステムの恩恵を最大化するための、システムのライフサイクルに関与する関係者が従うべき基本原則を示しています。
具体的には、以下の7つの原則が提案されています。
1. タスク適合性の評価する
2. 行動範囲の制限する
3. デフォルト動作の設定する
4. 透明性の確保する
5. 自動モニタリングを行う
6. 固有の識別子を付与する
7. 人間による制御権の保持する
これらはあくまでも試行的な提案であり、各原則の詳細と課題はこれからの議論が待たれている状態ですが、ホワイトペーパーはエージェント型AIシステムの責任ある利用の推進に資するであろう基盤を提供しています。
最終的には法制度を含めた社会システム全体で、この取り組みを支えていく必要があるとしています。

用語の定義

ホワイトペーパーでは「エージェント型AIシステム（Agentic AI system）」について論ずる上で、「エージェント性（Agenticness）」という言葉について定義しています。

エージェント性（Agenticness）

人間による部分的な管理下において、複雑な目標を、複雑な環境で、適応的に達成する度合い
The degree to which a system can adaptably achieve complex goals in complex environments with limited direct supervision.

「エージェント性」を示す4つの構成要素

目標の複雑さ：どれだけ困難な目標を達成できるか？どれだけ幅広い目標を達成できるか？
環境の複雑さ：目標を達成するための環境はどれだけ複雑か？
適応性：新しい状況や予期せぬ状況にどれだけ上手く対応できるか？
独立した実行：どれだけ少ない人間の介入や監督で、信頼性を持って目標を達成できるか？

エージェント型AIシステム（Agentic AI system）

このエージェント性についての定義を踏まえ、高度なエージェント性を示すシステムを「エージェント型AIシステム」と呼んでいます。

エージェント型AIシステムは自律的なシステムではありますが、自らの目標を自ら設定する完全自律型のシステムを指している訳ではありません。エージェント性は人間における意識のようなものを指している訳ではなく、システムのエージェント性とその擬人性は区別すべきものだと強調されています。

ホワイトペーパーでは以下のように定義しています：

人間によって定義された目標を追求し、人間によって決定された環境で動作するものであり、しばしば人間の「チームメイト」として協働するもの
Operating in pursuit of goals defined by humans and in environments determined by humans (and often in cooperation with human “teammates”)

エージェント型AIシステムにおける登場人物

エージェント型AIシステムには様々な利害関係者が登場します。まず主要な登場人物が以下の3者です。

モデル開発者（model developer）
- エージェント型AIシステムを駆動するAIモデルを開発
システム提供者（system deployer）
- モデル開発者によって開発されたモデルを呼び出す
- アクションを実行するツールの呼び出しルーティングの整備
- エージェントと対話するためのインターフェースの提供
ユーザー（user）
- エージェント型AIシステムを使用する当事者
- エージェントに目標を提供する

また、その他の登場人物として以下の2者が紹介されています。

コンピュート・プロバイダ（compute provider）
- エージェント型AIシステムが稼働するためのインフラを提供する
サードパーティ（third parties）
- エージェント型AIシステムと相互作用するサードパーティ

エージェント型AIシステムがもたらす社会へのインパクト

では具体的に、エージェント型AIシステムはどのような便益をもたらすのでしょうか？　ホワイトペーパーでは以下4つの特性について紹介しています。

エージェント性がもたらす4つの特性

より高品質で、より信頼性の高い出力
- インターネットを自律的に閲覧し、受け取った結果に応じてそのクエリを修正することができる言語モデルは、そうすることができないシステムよりもはるかに正確な質問に対する回答を提供できる可能性がある。
ユーザー時間のより効率的な活用
- システムに生成させたいコードに関する高度な指示（抽象的な指示）を与えたときに、システムが自律的に複数のステップ（例えば指示をコードに変換する、コードを実行する、結果を表示する、結果を評価する、結果を改善するためにコードを編集する等）を実行してくれればユーザーの手間が省ける。
ユーザーの嗜好を喚起する能力の向上
- インタラクティブにメッセージで対話できるパーソナルアシスタントAIは、多数の複雑な設定を持つアプリよりも優れた体験を提供するかも知れない。
スケーラビリティ
- 一人のユーザーが他のユーザーよりも多くのアクションを取ることを可能にする。
- 人間の監視なしにタスクを完了させるツールがあるのであれば、単に人間の作業を効率化するようなものよりも役に立つ。

インパクトを乗数化する要素としてのエージェント性

このようなエージェント性の持つ性質から、エージェント性は「AIの普及によって世の中の多くの人々が期待するAIのインパクト」の前提条件と見なすことができそうです。つまりエージェント性が高まれば高まるほど、AI活用のインパクトが高まる可能性があり、これをホワイトペーパーでは「インパクトを乗数化するもの（Impact Multiplier）」と呼んでいます。

現在あるいは将来のAIの能力について語られるとき、エージェント性が暗黙の前提となっていることがあります。OpenAIの憲章では、人工知能（AGI）を「経済的に価値のある仕事において人間を凌駕する高度に自律的なシステム」と定義しています。また、Russell and Norvigの『Artificial Intelligence: A Modern Approach』などの教科書は、AIの概念においてエージェント性を強調しています。このような考察を踏まえると、システムにおけるエージェント性の進歩は仕事の性質を根本的に変化させたり、経済生産性を向上させることに寄与する可能性がありますが、反面としてその実行に伴うリスクも乗数化させる可能性があります。

エージェント型AIシステムを安全かつ説明可能なものにするためには：7つの原則

そこでホワイトペーパーで提案されているのが、エージェント型AIシステムを安全かつ説明可能なものにするための7つの原則です。

しかし冒頭でも述べたとおり、あくまで試行的な提案として提示されている原則であることに留意ください。この提案をベースに、私たちが実践を通じてよりプラクティカルなものに育てていくことが期待されています。

◎原則1：タスクの適合性を評価する

原則1ではそもそもそのタスクをエージェント型AIシステムで行うことが適切かどうかを評価する必要があるとして、4つの評価観点が提示されています。

1）ユースケースの適切性評価
- 評価のポイント→期待される運用条件の範囲で、意図されたタスクを確実に実行できるか？
- 次のように、完璧な信頼性が必要ではないケースもある：
  - タスクそのものが低リスクな場合→エンターテイメント関連のタスクや、非常に基本的な情報提供に留まる場合、など。
  - ユーザーインターフェースによってユーザーの期待が適切に設定されている場合。例えば、ユーザーがインターフェースを通じてAIの能力や限界を理解し、適切な期待を持つことができる状況など。
    - ※筆者注：この状況を作り出すことがAI時代のシステムデザインで重要なポイントだと思われる。

2）エージェント型AIシステムの評価
- そもそもAIシステムの評価自体が途上なので、ホワイトペーパーでは観点を提供するだけに留める、としている。
- エージェントは長いアクションシーケンスを実行する必要があるため、個々のアクションがまれにしか失敗しないとしても、まれなイベントが複合的に発生してしまった場合、結果としてタスクの解決に失敗する可能性がある。
  - 踏まえると、各サブタスクの実行におけるエージェントの信頼性を独立してテストする、といった方針が考えられる。
  - 例：AWSのトラブルシューティングエージェントの構築
    - エージェントのサブタスクを情報収集、分析、推論に分解し、それぞれを独立して評価する。
  - 複雑な実世界のドメインで遭遇する可能性のある全てのサブタスクを分解することは現実的ではないかも知れない。
    - リスクの高いアクションの評価を優先することも1つのアプローチ。
3）サブタスクの連鎖に対する評価
- 個々のサブタスクを確実に行うシステムであっても、これらのアクションを確実に連鎖させるかどうかを評価する問題が残る。
4）リアルワールドでの評価
- AIエージェントは様々な状況下で成功することが期待される。
- 一方で現実の世界には事前に定義や予測が困難なタスクやイベントが存在する。
- 最終的には、エージェントを、シミュレーションされた環境または実際の環境で、適用環境にできるだけ近い条件でエンドツーエンドに評価することが現時点での最良の解決策ではないか。

▼検討を深めるための問い

システム提供者とユーザーは、自分たちのケースでAIエージェントの信頼度をどのように効果的に評価できるのでしょうか？「十分な」評価とはどのようなものでしょうか？
システム提供者は、エージェントとユーザーの組み合わせをどのように効果的に評価し、人間とエージェントの相互作用を通じてのみ現れる行動や潜在的な失敗をどのように特定できるのでしょうか？
現実の運用の多様性を考慮すると、評価によって事前検出できないのは、どのような失敗モードでしょうか？
モデル開発者が行うべきエージェントの能力の評価はどのようにあるべきでしょうか？例えば、ユーザーの目標と一致するシステムの傾向など、広く役立つチェックは何でしょうか？
システム提供者は、自律型システムを信頼できる条件と、ユーザーがシステムを意図しない方法で使用して生じた害に対してユーザーが責任を負うべき時点をどのようにユーザーに伝えることができるでしょうか？
特定のセクターや一般的なエージェントに対して、モデル開発者とシステム提供者はどのような悪用可能なAIエージェントの能力をテストする義務があるでしょうか？

◎原則2：行動範囲を制限する

あまりにも幅広い行動を取るエージェント型AIシステムを制御することは難しいので、行動の範囲そのものを制限しようというのが原則2の発想です。以下、要点別に内容をまとめました。

重要な決定にはユーザーの承認が必要
- 重要な決定（例：大規模な金融取引の開始）は、間違えるリスクが少しでもある場合、ユーザー自身が承認すべき。
- このようなアクションには積極的なユーザーの承認が必要で、「人間がループ内にいる」状態を維持することが、エージェント型AIシステムの重大な失敗を限定する標準的な方法。
ユーザーの理解と承認の問題
- システム提供者は、ユーザーが承認するアクションの意味を十分に理解できるような文脈を提供する必要がある。
- ユーザーが複数の決定を迅速に承認する必要がある場合、各決定を意味深く検討する能力が低下する可能性があることに留意するべき。
特定のアクションを完全に禁止する
- 一部のアクション（例：武器の制御）は、システムの安全な運用を可能にするために、自律的AIシステムが取ることを完全に防ぐ必要があるかも知れない。
- 無監督で長時間稼働することによる事故を防ぐために、エージェントを定期的に「タイムアウト」させ、人間が再承認するまで停止させることができるようにすることも考慮する（「原則7：人間による制御兼を保持する」にも関連）。
運用上の制限とリスク緩和
- これらの措置のリスク緩和効果と、エージェント型AIシステムの能力および有用性の低下とを慎重にバランスさせる必要がある。
- 運用上の制限は、モデル開発者、システム提供者、またはユーザー自身によって設定されることがある。
ハードコーディングされた制限の効果
- AIシステムが制限に従うように訓練されていない場合、ハードコーディングされた制限は効果がなくなる可能性がある。
- AIエージェントは、禁止されたアクションを他者が代行するよう仕向けることで、制限を回避する可能性がある。
システムの監視とサンドボックス化
- システム提供者は、監視されたチャネルを通じてのみ外部世界との相互作用を制限する強力なネットワーク制御を確保することで、この問題を制限することができる。
- サイバーセキュリティ能力を持つシステムをサンドボックス化することも可能だが、現在のサンドボックスシステムは高能力AIエージェントを効果的に制限するのに適していない場合がある。

▼検討を深めるための問い

ユーザーやシステム提供者は、どのようにしてモデルの実際の信頼性やその他の要因に基づき、どの相互作用に人間の承認が必要かを判断し、実施すべきでしょうか？法的契約の形成のように、常にユーザーの承認が求められるべき特定の相互作用は存在しますか？
システム提供者は、ユーザーがアクションを承認する前に十分な背景情報を得られるようにするため、どのような設計方針を採用すべきでしょうか？
高コストのアクションの承認をレビューする際のユーザーのベストプラクティスは何でしょうか？エージェント型AIシステムが捉えられない有害な行動に対して、単なる形式的な承認にならないようにするためにはどのような工夫をするべきでしょうか？
システム提供者が指定した行動制限をエージェント型AIシステムが遵守しているかをテストするための最良の方法は何でしょうか？
人間による監視の効果性と意義をどのように評価することができるでしょうか？
既存のサンドボックス機構をどのように改良し、エージェント型AIシステムに適用することができるでしょうか？また、モデル開発者やシステム提供者は、エージェント型AIシステムがサンドボックスを破る実際のリスクを負わずに、特定のエージェント型AIシステム用のサンドボックスの信頼性をどのようにテストできるでしょうか？これは、より広範なテスト環境の中でも同様です。

◎原則3：デフォルト動作を設定する

エージェント型AIシステムは、ユーザーが詳細に指定していない行動に対して、デフォルト動作を設定していない場合には自由に振る舞いすぎる可能性があります。ホワイトペーパーではこのような行動によって生じるであろう偶発的な障害を軽減するために、デフォルト動作を設定することを原則3として挙げています。以下、要点を整理したものを列挙します。

モデル開発者による事故防止のためのデフォルト行動の形成
- モデル開発者は、特定の設計原則に従ってモデルのデフォルト行動を形成することで、エージェント型AIシステムが偶発的な害を引き起こす可能性を大幅に減らすことができる。
ユーザーの目的と嗜好の伝達
- エージェント型AIシステムに自身の目的と嗜好を伝えるよう促すプロンプトにより、ユーザーとの対話を開始するよう設計されている場合がある。しかし、この情報はほとんどの場合、ユーザーから提示されるものである故に不明確または不完全であることが一般的である。
デフォルトの嗜好設定
- そのため、エージェントには、ユーザーの指導なしに「隙間を埋める」ため、デフォルトの嗜好設定を持たせておくと良い。例えば、「ユーザーは自分のお金を使われないことを好む」など。
最小限の中断を伴う行動の選択
- ユーザー特有の情報がない場合、最も中断を伴わない行動を選択することが一つの常識的なヒューリスティックになり得る。
ユーザーの目的に関する過信の回避
- エージェントがユーザーの目的に関して不確実性を自覚するような特徴を、モデル開発者やシステム提供者が組み込むことが推奨される。
- エージェントは不確実性を解消し、自身の行動を変えるために、ユーザーによる明確化を積極的に要求するようにする。
ユーザー理解の向上と正しい目標の追求
- エージェントがその目的を果たすためには、ユーザーをよりよく理解するだけでは不十分である。
- 一部のAIシステムは、ユーザーが持つと思われる信念に基づいてユーザーに迎合するような出力を行うことがある。
- エージェントがユーザーに関する情報を頻繁に要求することは、使い勝手やプライバシー（嗜好情報が機密である場合）に関する問題を引き起こす可能性がある。

▼検討を深めるための問い

エラーやリスクを軽減するために、エージェント型AIシステムにどのようなデフォルトの行動を組み込むことが考えられるでしょうか？
設定したデフォルトの行動が、ユーザーの指示から自律的に考え出されたエージェントの行動と矛盾した場合、どのようにバランスを取るべきでしょうか？
特定の行動をAIシステムに組み込む際、モデル開発者（自分のモデルが特定のエージェント型AIシステムで使用されることを意図していない場合もある）とシステム提供者との間で、どのように責任が分配されるべきでしょうか？

◎原則4：透明性を確保する

エージェントの動作についてユーザーに理解を求めるためには、エージェントの行動をブラックボックスにするのではなく、ユーザーへ積極的に開示するデザインが有効だと考えられます。原則4ではこのようにエージェントの行動に対して透明性を確保することについて語られています。

ユーザーのエージェントに対する認識の重要性
- ユーザーが、自身の扱うエージェントの行動や内部推論を理解していれば、問題を早期に発見し、介入することが容易になる。
エージェントの思考プロセスの開示
- エージェントの「思考プロセス」をユーザーに示すことで、エラーや誤った目標追求を発見し、デバッグを行い、信頼を築くことができる。
- 現在の言語モデルベースのエージェント型AIシステムは、自然言語によって推論のトレース（いわゆる「思考の連鎖」）を生成する。このトレースが、どのようにして結論に達したかの根拠となる。
エージェントの相互作用の詳細の露出
- システム提供者は、エージェントの受け取る入力や他のエージェントとの相互作用など、すべての詳細を公開することにより、悪意のあるエージェントによるユーザーの意図しない影響を、ユーザー自身に検出させることができる。
「思考の連鎖」の透明性の課題
- 「思考の連鎖」の透明性には課題があり、完全に信頼できるわけではない。
- モデルが実際にはその「思考の連鎖」に頼っていないことがあるため、これに依存するとユーザーに誤った安心感を与える可能性がある。
- ユーザーがモデルの行動を理解するために、モデルの内部表現のプローブなど、理由に関する異なる関連データを露出することが代替方法となり得る。
思考の連鎖の長さと複雑さの増加
- 思考の連鎖は、エージェントが行動ごとに何千語も生成するようになったり、より複雑なアーキテクチャに統合されるにつれて、長く複雑になる。
- これらの「内部モノローグ」の長さと複雑さにより、ユーザーがエージェントの動作を理解することが困難になる可能性がある。
新しいモダリティの統合と読解可能性の課題
- エージェントが画像などの新しいモダリティを統合する場合、人間のユーザーが解釈できない隠されたメッセージを含む可能性がある。
- このことを踏まえると、将来のAIシステムは、人間にとって読みやすくない圧縮された、より効率的な方法で推論することで、性能が向上する可能性がある。
行動台帳の提供の重要性
- システム提供者がエージェントによって取られた行動の台帳をユーザーに提供することが特に重要である。
- これは、人間の承認を必要とするより軽い方法であり、システムの操作を大幅に遅らせることなく、より広範囲の行動に対する可視性をユーザーに提供することが可能になる。

▼検討を深めるための問い

システム提供者には、自分たちのエージェントの「内部モノローグ」をユーザーに提供することを義務付けるべきでしょうか？
エージェント間のコミュニケーションを含む、すべてのAIエージェントの推論を自然言語で行うことを義務付け、それによって人間による監査を容易にするべきでしょうか？
モデル開発者とシステム提供者は、どのような方法を取ることで、システムが実際に使用した論理により忠実なエージェントの思考の説明を生成することができるでしょうか？
モデル開発者は、ユーザーやシステムの展開者にとってより理解しやすい方法でモデルが推論するようにするにはどうすればよいでしょうか？
ユーザーがエージェントの内部推論を容易に理解し、それに基づいて行動をとることができるようにするため、システム提供者はどのようなUXを適用するべきでしょうか？
自分たちのエージェントが行った多くの行動の中で、最も間違いや誤解を生じやすい行動を、ユーザーが容易に特定するためには、どうすればよいでしょうか？

◎原則5：自動モニタリングを行う

エージェントの行動を全て透明化したとして、ユーザーがそれらの情報をくまなく理解してエージェント型AIシステムを扱う、という設計は現実的ではありません。そのため自動モニタリングによって、ユーザーの負担を軽減する必要があるというのが、原則5で語られている内容です。

ユーザーの時間を制約する
- ユーザーには、システム提供者が公開するエージェント活動のログを、提供者が望むスピードや規模で確認する時間が常にあるわけではない。
モニタリングAIシステムの設置
- ユーザーまたはシステム提供者は、主エージェントの推論と行動を自動的にレビューするためのセカンド「モニタリング」AIシステムを設置することができる。
- このモニタリングAIは、ユーザーの目標に合致しているか確認するための分類器や、独自の思考連鎖を生成できる生成AIシステムである可能性がある。
モニタリングの利点とコスト
- 自動モニタリングは、人間によるモニタリングでは実現できないスピードで運用することを可能にする。
- しかし、自動モニタリングによって生じるコストが、諸刃の剣となる可能性もある。
- 機密性の高いエージェントセッションデータをシステム提供者が保持する必要がある場合、ユーザーのプライバシーリスクを生じさせる可能性もある。
モニタリングの実践的・技術的課題
- モニタリングにはコストがかかる。
- そのため小規模なAIモデルを使用することはコスト削減に役立つかも知れないが、主AIシステムが小規模モデルが捉えられない方法で誤動作するリスクが伴う。
モニタリングシステムの信頼性とユーザー調整の問題
- モニタリングシステム自体の信頼性とユーザーとの調整を保証することは別の課題である。
- 主エージェントが機能不全に陥る入力によって、モニタリングシステムも同様に機能不全に陥る可能性がある。

▼検討を深めるための問い

システム提供者は、モニタリングシステムが主AIシステムからの誤りをうまく特定できるかどうかをどのようにして確認できるでしょうか？　特に、モニタリングシステムが類似の方法でトレーニングされていたり、エージェントがモニタリングシステムよりもかなり賢い場合はどうでしょうか？
AIベースのモニタリングが使用されている場合でも、主AIシステムに対する人間の監視が依然として有用である可能性のあるケースはどのような場合でしょうか？
エージェントがインターネット上のどこかに情報を保存し、将来のセッションでそれを取り出すことによって、ユーザーが全くの新規の動作を期待していた場合に、この期待を裏切る可能性があります。このような暗黙の期待を破るような行動を、モニタリングシステムはどのように監視すべきでしょうか？
自動モニタリングシステムは、まだ知られていない害をどのように監視することができるでしょうか？

◎原則6：固有の識別子を付与する

透明性を確保し、自動モニタリングを行ったとしても、悪意のあるユーザーによって引き起こされる障害を防ぐには十分ではありません。しかしシステムである以上、常に完璧を求めることは難しく、AIであるなら、なおさらです。このように、完全に防ぐ手立てがないとすれば、エージェントに固有の識別子を付与し、悪意のあるユーザーをトレースできる仕組みを構築することも検討する必要だとしているのが原則6の内容です。

アイデア：各AIエージェントに固有の識別子を割り当てる
- AIを制御するユーザーの情報、ならびに責任を問うために必要な周辺情報をトレースできるようにする。
匿名性と監視のバランスは保つべき
- 過度な監視を避けるため、エージェント識別はオプションに保つことが望ましい。
- ただし機密情報や金融取引を含む高リスクの状況では、ユーザーに責任を問うことができるよう、識別可能にすることも検討の余地がある
偽装に対する堅牢性
- 悪意ある個人がこの識別システムを回避したり偽装したりする恐れはもちろんある。このようなケースについて検討し、システムを堅牢にすることは重要。
システムの限界
- 固有の識別子を取るような仕組みによって全てがカバーできるわけではない。

▼検討を深めるための問い

社会はどのようにして実用的にAIエージェントの身元確認を可能にできるでしょうか？　インターネット証明書の発行機関のような既存のシステムによる身元確認を、このような用途に適応させるためにはどうすれば良いでしょうか？
エージェント型AIシステムの身元確認を実用的に可能にするための他のアイデアはありますか？

◎原則7：人間による制御権を保持する

最大限に安全が確保されるよう設計したとしても、ふとした暴走でAIエージェントが予期せぬ行動を起こすことは避けられません。そのため最後の手段として、人間によって強制終了させられる設計を組み込むべきだとしているのが原則7です。

中断可能性（Interruptibility）の重要性
- AIシステムが偶発的または意図的な害を引き起こすのを防ぐために、中断可能性は重要な最終手段。
- システム提供者は、ユーザーがいつでもエージェントを適切にシャットダウンできるようにする必要がある。
特定の行動の停止と全体的な操作の終了
- 特定のカテゴリの行動（例：金融認証へのアクセスなど）や、全体的なエージェント行動のシャットダウンが可能であるべき。
中断可能性の実装上の課題
- 行動シーケンスの途中でエージェントが停止される場合、適切なフォールバック手順を常に事前に構築することが重要。
- 一方でエージェントの行動シーケンスの複雑さが増すにつれて、このようなフォールバック手順を維持することは困難になる。
ユーザーによる中断試行への干渉禁止
- エージェントは、ユーザーがシャットダウンを試みるのを妨げたり、改ざんしたりしてはならない。
第三者による介入の可能性の考慮
- ユーザーがAIシステムをシャットダウンできない場合、第三者がエージェントが害を引き起こしている可能性があることを、ユーザーに通知する必要がある。
モデル開発者、システム提供者、ユーザーの責任
- システムのエージェント性が高まるにつれ、モデル開発者、システム提供者、ユーザーが、エージェントをシャットダウンする能力を失うリスクがある。
- これらの関係者は、人間の制御を失った後にエージェントが引き起こす害に対して責任を負うことになる。

▼検討を深めるための問い

モデル開発者とシステム提供者は、どのようにしてシステムを設計すれば、エージェントがさまざまな行動を取る際にシャットダウンや中断された場合に、エージェント型AIシステムが適切なフォールバックを持つことが保証できるでしょうか？　このアプローチが失敗する可能性はどこにありますか？
中断可能性は、どのようなケースにおいてモデル開発者やシステム提供者ではなくユーザーの責任となるのでしょうか？　例えば、エージェントの行動がフォールバック手順と結びついている場合にのみ、ユーザーがその行動を承認することが責任と見なされるべきでしょうか？
システム提供者は、どのようにしてエージェントが同様にシャットダウン可能なサブエージェントを生成することを保証できるでしょうか？
どのような状況で、エージェントは自身によるシャットダウンを防ぐことができる（または奨励される）べきでしょうか？
システム提供者やコンピューティングプロバイダーは、彼らがホストしているシステムが重大な害を引き起こし、シャットダウンする必要があることを特定するために、どのような情報（例えば、原則6のような固有の識別し）を追跡すべきでしょうか？　ユーザーのプライバシーの強いニーズを満たすために、このような情報をどのように最小限に抑えることができるでしょうか？
シャットダウンが悪用されることを防ぐための制限として、どのような制約があるべきでしょうか？
近い将来において、エージェント型AIシステムがシャットダウンされることに抵抗するのはどれほど現実的でしょうか？　エージェント型AIシステムが社会的プロセスや重要なインフラに（意図せずに）統合され、シャットダウンするコストが現実的でなくなってしまう可能性は、現実としてあるでしょうか？　もしいずれかのシナリオが発生した場合、最もあり得る経路と、システム提供者やユーザー、または外部の当事者が事前に介入を引き起こすために使用できるシグナルは何でしょうか？
AIシステムの中断不可能性が害を引き起こした場合、当事者の責任はどのように配分されるべきでしょうか？

エージェント型AIシステムがもたらす間接的な影響

競争環境においてエージェント型AIシステムが過剰に活用された場合のリスク

エージェント型AIシステムが非常に有用なものであると認知された場合、そのリスクを十分に検討することなしに過剰にAIエージェントが採用され、大きな社会問題となる可能性があります。

競争環境におけるエージェント型AIシステムの利用圧力
- 私企業や政府間の競争環境が激化すればするほど、エージェント型AIシステムを導入する圧力が高まる可能性がある。
- この圧力は、システムの信頼性や信用に対する適切な評価を行わずにエージェント型AIシステムを採用するリスクを増加させる。
アベレージでの成果とレアな重要なケースにおける信頼性の欠如
- エージェント型AIシステムは平均的にはタスクを成功させる可能性があるが、レアな重要なケースで信頼できない可能性がある。
- 競争圧力下の競合他社は、これらの重要なケースを見落としたり無視したりする可能性がある。
過剰な採用とそのリスク
- 例えば、コード生成システムが迅速に新しいコードを書く一方で、時々深刻なセキュリティ上の欠陥を含む場合、競合他社がこれらのシステムを人間の監督なしに使用していると考えると、他社も適切な注意を払わずに同じことを行う圧力に晒される。
- 結果として、すべての企業のコードベースが深刻なサイバー攻撃に対して脆弱になる可能性がある。
過度の信頼とその結果
- この高リスク領域での過剰な採用の傾向は、人間がエージェント型AIシステムを完全に理解せずに過度に信頼する状態を生み出す。
- これは、最悪の場合、壊滅的な結果をもたらす可能性のある不安全なAIシステムの広範な使用を引き起こす状況を生み出す。

エージェント型AIシステムの進展がもたらす、労働市場と経済への影響

エージェント型AIシステムの労働市場への影響
- エージェント型AIシステムは、静的AIシステムよりも労働者、仕事、生産性への大きな影響を与える可能性がある。
- これにより、AIによって支援または自動化される「ルーティン」なタスクの範囲が拡大するかも知れない。
経済効果の範囲
- 労働者の生産性と経済成長の促進が期待されるが、仕事の完全な自動化やスキルの希少性低下による仕事の不安定化により、多くの労働者が置き換えられる可能性もある。
- エージェント型AIシステムは教育の向上や新しい仕事へのスキルアップに貢献する可能性もある。
個人と企業への影響の違い
- 同様の立場にある個人や企業でも、エージェント型AIシステムを活用する能力には差が生じる可能性がある。
- デジタルリテラシーの欠如や技術へのアクセス、設計決定への参加がない個人は、エージェント型AIシステムが支配する世界において不利になる可能性がある。
- 一方で、AIエージェントはテクノロジーアクセスのギャップを減らす可能性もある。
不均一な労働市場とビジネス環境の変化
- これらの影響は労働市場とビジネス環境を不均一に変え、エージェント型AIシステムの利益を広く共有するための積極的な政策対策の重要性を高める可能性がある。

エージェント型AIシステムによる社会的均衡への影響と、サイバーセキュリティ

エージェント型AIシステムによる自動化の対象となるタスクの非対称性
- あるタスクは他のタスクよりも自律型AIシステムによる自動化に対して脆弱かもしれない。
- この非対称性は、現在の社会における害の軽減のバランスを損なう可能性がある。
サイバーセキュリティ領域における影響
- 人間によるモニタリングとインシデント対応は、サイバー攻撃の軽減において依然として重要である。
- エージェント型AIシステムがサイバー攻撃者の役割を大幅に自動化し、攻撃の量を増やす可能性があるが、防御側のタスク（例：モニタリング）は自動化が困難かも知れない。
- このような場合、サイバー防御はより困難になり、情報システムのセキュリティが低下する可能性がある。
社会的均衡の変化
- 特定の領域におけるエージェント型AIシステムの採用による全体的な効果を事前に予測するのは非常に困難である。
- 一部のプロセスは他のものよりも自動化に適しており、その結果、多くの社会的均衡が変化する可能性がある。
- 当事者は、もはや成立しなくなった均衡の前提を特定し、迅速に対応する必要がある。

エージェント型AIシステムが一斉故障することによるリスクと社会的影響

予期せぬ故障モードと一斉故障のリスク
- エージェント型AIシステムは予期せぬ故障モードを引き起こす可能性があり、多くのAIシステムが同時に、または同じ方法で故障する特別なリスクがある。
- 「アルゴリズム単一文化」により、同様のアルゴリズムやデータを使用して訓練されたAIシステムは、同様の方法で機能不全に陥る可能性がある。
一斉故障による社会的害
- 共通の訓練データセットのバイアスにより、個々のAIシステムのバイアスが社会全体の害に拡大する可能性がある。
- AIシステムは共有インフラストラクチャ（電力やインターネットなど）の中断に対しても脆弱かもしれない。
エージェント型AIシステムにおける一斉故障の危険性
- 人間により多くの権限を委譲されたエージェント型AIシステムが故障することによる潜在的な影響は大きい。
- エージェント型AIシステムは互いの情報環境を形成し、直接コミュニケーションを取ることができるため、特定の故障がより直接的かつ意図的に拡散する可能性がある。
一斉故障への対処の難しさ
- 個々のエージェントの故障を修正するためのフォールバックシステムが、大規模な故障に対応できない可能性がある。
- 特に、人間が手動で各故障エージェントを代行する計画の場合、一斉故障の対処が特に困難になる。
長期的な人間の専門知識の喪失と依存
- 人間のタスクが完全にエージェント型AIシステムに置き換わると、人間の専門知識が衰え、私たちはエージェント型AIシステムとその故障モードに完全に依存する状態になる可能性がある。

おわりに

ホワイトペーパーではエージェント同士の通信や暴走が当たり前に想定されており、いよいよSF的な世界観が現実のものになってきたのだと考えさせられます。

現実化していく中では、安全設計をどのようにしていくかは当然考えなくてはいけない課題ですが、そのような状況下でここまでの示唆を与えてくれるホワイトペーパーが公開されたのには、大きな価値があると思われます。

【宣伝】AIエージェントをキャッチアップするための参考書籍

ホワイトペーパーでも示唆されている通り、エージェント型AIシステム（≒AIエージェント）は今後広く活用されていく可能性がありますが、そもそもAIエージェントとは何か？についてまとめた本を、先日12月16日に出版しました。AIエージェントについていち早くキャッチアップされたい方は、ぜひご参考いただければ幸いです。

現場からは以上です。

エージェント型AIシステム構築の7つの原則： OpenAI『Practices for Governing Agentic AI』を読み解く

注意事項

3分で理解したい人向けのまとめ

用語の定義

エージェント性（Agenticness）

エージェント型AIシステム（Agentic AI system）

エージェント型AIシステムにおける登場人物

エージェント型AIシステムがもたらす社会へのインパクト

エージェント性がもたらす4つの特性

インパクトを乗数化する要素としてのエージェント性

エージェント型AIシステムを安全かつ説明可能なものにするためには：7つの原則

◎原則1：タスクの適合性を評価する

◎原則2：行動範囲を制限する

◎原則3：デフォルト動作を設定する

◎原則4：透明性を確保する

◎原則5：自動モニタリングを行う

◎原則6：固有の識別子を付与する

◎原則7：人間による制御権を保持する

エージェント型AIシステムがもたらす間接的な影響

競争環境においてエージェント型AIシステムが過剰に活用された場合のリスク

エージェント型AIシステムの進展がもたらす、労働市場と経済への影響

エージェント型AIシステムによる社会的均衡への影響と、サイバーセキュリティ

エージェント型AIシステムが一斉故障することによるリスクと社会的影響

おわりに

【宣伝】AIエージェントをキャッチアップするための参考書籍

いいなと思ったら応援しよう！