Operator の概要

2025年1月24日 06:48

以下の記事が面白かったので、簡単にまとめました。

・Introducing Operator

1. Operator

「Operator」は、Webにアクセスしてユーザーに代わってタスクを実行できるエージェントです。独自のブラウザを使用して、Webページを参照し、入力、クリック、スクロールすることで操作できます。現在は研究プレビューであるため制限があり、ユーザーからのフィードバックに基づいて進化します。

「Operator」は、フォームへの記入、食料品の注文、ミームの作成など、さまざまな反復的なブラウザタスクを処理するよう要求できます。人間が日常的に使用するのと同じインターフェイスとツールを使用できることで、AIの有用性が広がり、人々が日常のタスクに費やす時間を節約できると同時に、企業にとって新たなエンゲージメントの機会が生まれます。

安全かつ段階的な展開を確実にするために、小規模から開始します。本日から、「Operator」は米国のProユーザー向けに、operator.chatgpt.comで利用できます。将来的には、Plus、Team、Enterpriseユーザーにも拡大し、これらの機能を「ChatGPT」に統合する予定です。

2. Operator のしくみ

「Operator」は、「Computer-Using Agent (CUA)」と呼ばれる新しいモデルを搭載しています。「GPT-4o」の視覚機能と強化学習による高度な推論を組み合わせることで、「CUA」は画面に表示されるボタン、メニュー、テキストフィールドなどのGUIを操作するように学習されます。

「Operator」は、ブラウザを「表示」(スクリーンショットを通じて) し、「対話」(マウスとキーボードで可能なすべてのアクションを使用) できるため、カスタムAPI統合を必要とせずにWeb上でアクションを実行できます。

問題に遭遇したり間違いを犯したりした場合、「Operator」は推論機能を活用して自己修正することができます。行き詰まり、支援が必要になった場合は、ユーザーに制御を戻すだけで、スムーズで協力的な体験が保証されます。

「CUA」はまだ初期段階にあり、制限もありますが、2つの主要なブラウザ使用ベンチマークである「WebArena」と「WebVoyager」で、SOTAを達成しました。「Operator」の背後にある evals と研究の詳細については、研究ブログを参照してください。

3. 使い方

「Operator」を開始するには、実行したいタスクを説明するだけです。ユーザーはいつでもリモートブラウザの制御を引き継ぐことができます。また、「Operator」は、ログイン、支払いの詳細、CAPTCHAの解決が必要なタスクについては、ユーザーに引き継ぎを積極的に依頼するように学習されています。

ユーザーは、Booking.com で航空会社の好みを設定するなど、すべてのサイトまたは特定のサイトに対してカスタム指示を追加することで、「Operator」でワークフローをパーソナライズできます。「Operator」を使用すると、ユーザーはプロンプトを保存してホームページにすばやくアクセスできます。これは、「Instacart」で食料品を補充するなどの繰り返しのタスクに最適です。ブラウザで複数のタブを使用するのと同様に、ユーザーは新しい会話を作成して、「Operator」で複数のタスクを同時に実行できます。たとえば、「Hipcamp」でキャンプ場を予約しながら、「Etsy」でパーソナライズされたエナメルマグを注文するなどです。

4. エコシステムとユーザー

「Operator」はAIを受動的なツールからデジタルエコシステムの能動的な参加者へと変革します。これにより、ユーザーのタスクが効率化され、革新的な顧客体験を求め、より高いコンバージョン率を望む企業にエージェントのメリットがもたらされます。「DoorDash」「Instacart」「OpenTable」「Priceline」「StubHub」「Thumbtack」「Uber」などの企業と連携して、「Operator」が確立された規範を尊重しながら現実世界のニーズに対応できるようにしています。これらの連携に加えて、特に公共部門のアプリケーションにおいて、特定のワークフローのアクセシビリティと効率性を向上させる可能性が大いにあると考えています。これらのユースケースをさらに検討するために、ストックトン市などの組織と協力しています⁠。

5. 安全性とプライバシー

「Operator」の安全性を確保することは最優先事項であり、不正使用を防止し、ユーザーが確実に制御できるように3層の安全対策が施されています。

まず、「Operator」は、それを使用する人が常に制御し、重要なポイントで入力を求めるように学習されます。

・テイクオーバーモード
「Operator」は、ログイン認証情報や支払い情報などの機密情報をブラウザに入力するときに、ユーザーにテイクオーバーを要求します。テイクオーバーモードでは、「Operator」はユーザーが入力した情報を収集したり、スクリーンショットを撮ったりしません。

・ユーザーの確認
注文の送信やメールの送信など、重要なアクションを完了する前に、「Operator」は承認を求める必要があります。

・タスクの制限
「Operator」は、銀行取引や、就職活動の決定など、重大な決定を必要とする特定の機密タスクを拒否するように学習されています。

・監視モード
電子メールや金融サービスなどの特に機密性の高いサイトでは、「Operator」は動作を厳密に監視し、ユーザーが潜在的な間違いを直接検出できるようにします。

次に、「Operator」でのデータプライバシーの管理が容易になりました。

・学習のオプトアウト
ChatGPT 設定で「全員のためにモデルを改善する」をオフにすると、Operator のデータもモデルのトレーニングに使用されなくなります。

・透過的なデータ管理
ユーザーは、「Operator」設定のプライバシーセクションでワンクリックですべての閲覧データを削除し、すべてのサイトからログアウトできます。Operator での過去の会話もワンクリックで削除できます。

最後に、隠しプロンプト、悪意のあるコード、フィッシングの試みなどを通じて「Operator」を誤解させようとする敵対的な Web サイトに対する防御を構築しました。

・慎重なナビゲーション
「Operator」はプロンプト注入を検出して無視するように設計されています。

・監視
専用の「モニターモデル」が疑わしい動作を監視し、何かおかしいと思われる場合はタスクを一時停止できます。

・検出パイプライン
自動化されたプロセスと人間によるレビュープロセスにより、新しい脅威が継続的に特定され、保護手段が迅速に更新されます。

悪意のある人物がこの技術を悪用しようとする可能性があることは承知しています。そのため、「Operator」は有害なリクエストを拒否し、許可されていないコンテンツをブロックするように設計しました。OpenAIのモデレーションシステムは、繰り返し違反があった場合に警告を発したり、アクセスを取り消したりすることができ、悪用を検出して対処するための追加のレビュープロセスを統合しています。また、使用ポリシーに準拠して「Operator」とやり取りする方法についてのガイダンスも提供しています。

「Operator」はこれらの安全対策を講じて設計されていますが、完璧なシステムなど存在せず、これはまだ研究プレビュー段階です。OpenAIは、実際のフィードバックと厳格なテストを通じて、継続的な改善に取り組んでいます。詳しくは研究ブログを参照してください。

6. 制限事項

「Operator」は現在、初期研究プレビュー段階にあり、すでに幅広いタスクを処理できるようになっていますが、まだ学習と進化の過程にあり、間違いを犯す可能性もあります。たとえば、スライドショーの作成やカレンダーの管理などの複雑なインターフェースでは、現在課題に直面しています。早期のユーザーフィードバックは、精度、信頼性、安全性の向上に重要な役割を果たし、「Operator」を誰にとってもより優れたものにするのに役立ちます。

7. 今後の予定

7-1. API の CUA

「Operator」を動かすモデル「CUA」をAPI で近日中に公開し、開発者がそれを使用して独自の「Computer-Using Agents」を構築できるようにする予定です。

7-2. 強化された機能

より長く複雑なワークフローを処理できるように、「Operator」の機能を継続的に改善していきます。

7-3. より広いアクセス

「Operator」のより広いアクセスを計画しています。Plus、Team、Enterprise ユーザー向けに提供し、大規模環境での安全性と使いやすさに自信が持てるようになったら、将来的には ChatGPT にその機能を直接統合し、シームレスなリアルタイムおよび非同期タスク実行を実現します。