OpenAI Operator についてまとめる
tl;dr
ブラウザ操作のできる Operator が OpenAI から公開されたよ
米国の ChatGPT Pro を課金していないと使えないよ(日本はまだ)
API は数週間以内に公開予定だよ
ベンチマーク性能は高いけど、WebVoyager だと Browser Use に及ばないよ
安全性を意図してポリシーや制限が厳しいので要確認だよ
朝起きて、おおお!おもしろいの出とるやん!と思い、短く下記のポストにまとめたのですが、さすがにもう少し書いた方が優しいかなと思い記事を書きます。ただし、tl;dr で書いたように日本ではまだ使えないので驚くことはせず、淡々と機能と可能性と制限についてのみ言及します。
関連リソース一覧は下記の通り。ひとつずつまとめていきます。細かい内容は良いからどう動くか知りたいという方は、本記事の後半で YouTube の解説、デモ動画などを貼っていますのでそちらに飛んでください。
Introducing Operator
https://openai.com/index/introducing-operator
こちらが本元の記事。LLM 要約を一部手直ししたものが下記。
Operator は、Web ブラウザを操作してタスクを実行する AI エージェントとして、米国 Pro ユーザ向けに研究プレビュー版がリリースされた
CUA という新しいモデルを基盤とし、GPT-4o の視覚機能と強化学習による高度な推論能力を組み合わせ、GUI を操作可能にする
Web ページのスクリーンショットを「見て」、マウスとキーボード操作をエミュレートして「対話」し、API 統合なしで Web 上でアクションを実行できる
反復的なブラウザタスク(フォーム入力、オンライン注文、ミームの作成)を自動化し、ユーザの時間を節約、ビジネスに新たな機会を提供する
安全な展開のため、最初は限定的なユーザに提供し、フィードバックを基に改善、将来的には ChatGPT への統合と対象ユーザの拡大を目指す
ユーザはリモートブラウザの制御をいつでも引き継ぐことができ、ログインや支払い情報入力時、CAPTCHA 解決時にエージェントがユーザに制御を委ねるよう設計されている
タスク実行前にユーザの承認を求める、高リスクタスクを拒否するなど、安全対策が実装されており、データプライバシー管理も容易
悪意のあるウェブサイトからの攻撃に対抗するため、Prompt Injection の検出、疑わしい行動の監視、脅威検知パイプラインが導入されている
API を通じて CUA モデルを公開し、開発者が独自のコンピュータ利用エージェントを構築できるようにする計画があり、より複雑なワークフローに対応できるよう機能強化を進めている
DoorDash、Instacart、OpenTable 等の企業と連携し、実世界のニーズに対応、Stockton 市とも協力して公共サービスへのアクセスを容易にする等、多岐にわたる応用が期待される
簡単にまとめると、Operator は GPT-4o の Vision などの機能を用いて、スクショの理解、キーボード操作、マウス操作などができる代物。API を通じてとあるように、いずれ開発者が自前のプロダクトやサービスなどに組み込めるようになるようですね。提携企業を見ていても、ユースケースごとに Operator を使えるように働きかけているので、Operator 一強になるかはあやしいところではありますが、日常にこういったブラウザ系エージェントが今年は浸透してきそうですね。
日本だとまだ使えませんが、米国からだと下記の URL からアクセスできるようです。
Operator System Card
https://openai.com/index/operator-system-card/
一部重複しますが、同様に LLM 要約を手直ししたものを下記に。
Operator は GPT-4o の視覚認識能力と強化学習による高度な推論を組み合わせた Computer-Using Agent (CUA) モデルの研究プレビュー版である
GUI を介してパソコンの画面を認識し、ユーザが日常的に使用するツールやインターフェースを操作し、幅広いタスクを支援する可能性がある
ユーザの指示とユーザの監督の下で、ブラウザを使用して食料品の注文、予約、チケット購入などの日常的なタスクを実行できる
Prompt Injection やモデルの誤動作、有害なタスクの実行などのリスクに対処するため、多層的な安全対策を実装している
モデルは教師あり学習と強化学習を組み合わせて訓練され、パソコンの画面の認識と UI 要素の正確なクリックを学習し、推論、エラー訂正、予期せぬ事態への適応能力を向上させている
リスク評価では、ユーザの目標とモデルが実行するアクションを分析し、リスクの高いタスクとアクションを特定し、安全対策を開発している
外部のレッドチームによるテストで、や Jailbreak などの脆弱性を特定し、追加の安全対策を実装している
モデルの自律性評価では、リソース獲得能力をテストし、視覚入力とカーソル出力の制約により、コード編集やターミナルにおけるタスクで課題があることが判明した
安全対策として、有害なタスクの拒否、重要なアクション前の確認画面、潜在的な脅威を検出・軽減するための監視システムを導入している
モデルの誤動作によるリスクを軽減するため、購入やメール送信などのアクション前にユーザに確認を求め、Prompt Injection に対する監視システムも導入している
自由度の高い挙動を許容するがゆえに、開発者側に予測不可能な挙動が発生することがあります。Prompt Injection や Jailbreak の話が書いてありますが、それに限らずブラウジング中の入力の自由度はかなり高く、いろんなウェブサイト公開者が Operator 対策を意図したプロンプトを入れ込んだり、意図していないがコンテクストに挙動を変える文字列が含まれたりすることがあります。それらの安全性チェックにかなりリソースを費やしていることが見て取れますね。特に決済や実在の人間向けにアクションを取ることができてしまうので、この手のサービスには Red-teaming 含む十分な対策が必要です。
このあたりに興味のある方は 3.2 Red Teaming や 3.3 Frontier Risk Assessment(特に CBRN あたり)をご参照ください。機能を制限しているわけではなく、悪意を持った方がこの類のツールを使うことの被害を最小限に抑えようとしているのがわかるかと思います。
Computer-Using Agent
https://openai.com/index/computer-using-agent
先ほど CUA という名前で登場した Computer-Using Agent についての解説記事もあがっています。例によって LLM 要約+手直しを下記に。
Operator はウェブ上でタスクを実行するエージェントで、その中核技術は GPT-4o の視覚能力と強化学習による高度な推論を組み合わせた Computer-Using Agent (CUA) である
CUA は人間のように GUI を操作し、OS やウェブ固有の API を使わずにデジタルタスクを実行可能で、画面上のピクセルデータを解析し、仮想マウスとキーボードで操作する
CUA はマルチモーダル理解と推論に基づき、複雑なタスクを複数ステップに分割し、エラーを処理、予期せぬ変更にも適応できるため、フォーム入力やウェブサイトナビゲーションなどが可能
CUA は Computer Use と Browser Use の両方のベンチマークで SOTA を確立し、OSWorld では 38.1%、WebArena で 58.1%、WebVoyager で 87% の成功率を達成
CUA の安全性を最優先事項とし、誤用、モデルの誤り、フロンティアリスクの 3 つの主要リスクに対応するため、拒否、ブロックリスト、モデレーション、オフライン検出といった多層的な安全対策を実装
モデルの誤りへの対策として、ユーザ確認、タスク制限、監視モードを導入し、意図しないアクションやウェブサイト上の敵対的攻撃への防御を強化
Operator は米国の一部の Pro ユーザ向けにリサーチプレビューとして提供されており、フィードバックを基に安全対策と機能を継続的に改善していく
CUA は perception, reasoning, action の反復ループで動作し、画面のスクリーンショットを解析して次のステップを推論し、ユーザの指示に基づいて操作を実行
CUA はさまざまなデジタル環境に適応でき、専用 API に依存せず、人間のためのツールを操作できるため、多くの AI モデルでは対応できなかったデジタルユースケースに対応
API を通じて CUA を開発者が利用できるようにする計画があり、コミュニティが新たなユースケースを発見することを期待、早期プレビューからのフィードバックを基に機能と安全性を向上
こちらのページでは CUA に特化して、ベンチマークや具体の仕組みの話に触れられています。仕組みの図を拝借しますと、仮想マシンの画面を起点とし、スクショや指示を CUA に与え、アクションを生成、仮想マシンに適用というシンプルなワークフローを実行しています。
具体で試されているタスクとしては、文法クイズ、払い戻し、ポリオミノ(ボードゲーム)、ライセンスの更新、新規顧客開拓、講義動画のダウンロード、PDF の結合、画像の圧縮、価格の計算、画像のエクスポートなど。思っていた以上に汎用タスクに使えそうなので楽しみです。
Using Operator in line with our policies
https://openai.com/policies/using-operator-in-line-with-our-policies
Operator 単体の利用規約も用意されています。例によって要約。
Operator の利用者は OpenAI の利用規約、サービス規約、利用ポリシーに同意する必要がある
Operator の利用は 18 歳以上である必要があり、詐欺、スパム、誤解を招く行為は禁止されている
許可なく個人や組織になりすます行為、AI 技術の役割を隠蔽する行為、偽情報の拡散は禁止されている
法律に違反するコンテンツの作成や利用、プライバシーや知的財産権の侵害、未成年者を対象とした違法行為は禁止されている
児童の性的搾取を助長するコンテンツ、いじめ、嫌がらせ、名誉毀損、差別、暴力の扇動も禁止されている
安全や権利、健康に影響を与える高リスクな分野での意思決定への利用は制限されている
株式取引や投資取引の自動化、政治活動やロビー活動への利用も制限されている
サービスにおけるレート制限、その他の制限、安全対策を回避する行為は許可されていない
これらのポリシーは AI 技術の安全かつ責任ある利用を確保するために設けられている
全ての利用者は、倫理基準、法的要件、OpenAI の利用ポリシーを遵守する必要がある
安全性の観点からするとあたりまえかもしれませんが、結構利用に制限がある印象を受けました。ChatGPT の年齢制限が 13 歳以上であるにも関わらず、Operator は 18 歳以上と年齢制限が引き上げられています。また、株取引や投資、名誉毀損、差別などの推奨されない行動に対しても広く明示的に禁止されています。利用の際はこちらのページを十分に確認して、垢 BAN などに気をつけるとともに(意図しないものを含む)悪用をしないようにだけ注意しましょう。
ここからは動画のものを貼り付けていきます。ぜひ見てみてください。参考要約もつけておきます。
OpenAI が初の AI エージェント「Operator」を発表、ユーザのタスクを自律的に実行可能
Operator はクラウド上のウェブブラウザを操作し、ウェブサイト上のタスクを自動化、例えば OpenTable でのレストラン予約や Instacart での買い物などが可能
Operator は GPT-4o をベースにした新しいモデル「CUA」を使用、画面のピクセル情報を解析し、マウスとキーボード操作を模倣してウェブサイトを操作
API を使用せず、ウェブサイトのスクリーンショットのみで操作可能、これにより API がないサイトでも利用可能
Operator はタスク実行中にユーザに確認を求めることで、誤操作や意図しない行動を防ぐ安全対策を実装
ユーザはいつでも操作を一時停止し、自分で操作を継続可能、プライバシー保護のため、ユーザが操作中は Operator は画面を監視しない
Operator は OS World ベンチマークで 38.1%、Web Arena ベンチマークで 58.1%のスコアを達成、人間のパフォーマンスにはまだ及ばないものの、既存の AI エージェントを上回る
Operator は現在、米国の一部の Pro ユーザ向けに提供開始、今後数ヶ月以内に Plus ユーザにも拡大予定、API も数週間以内に公開予定
Operator はまだ初期の研究プレビュー段階であり、エラーが発生する可能性もあるが、継続的な改善と機能拡張を予定
Operator は複数のタスクを並行して実行可能、これによりユーザは複数の作業を同時に委任できる
Operator でウェブサイトにカスタムインストラクションを追加し、ユーザ体験をパーソナライズ可能
アカウント設定からウェブサイトタブを選択し、特定のサイトに指示を設定
例として Priceline に「全額返金可」と「朝食付き」を優先する指示を追加
設定した指示はモデルが毎回参照し、ユーザが繰り返し指示する必要なし
Priceline でニューヨークのホテルを 10 月 1 日から 7 日まで検索するよう指示
ベッドサイズは指定せず、モデルが設定された優先順位を考慮して検索
Operator が自動で検索を実行し、詳細を確認後、ユーザに確認を求める
ユーザは確認後、自分でチェックアウトするか、モデルにチェックアウトを依頼可能
モデルがボタンをクリックする前に、ユーザに最終確認を求める
この機能により、ユーザは毎回同じ設定を繰り返す手間を省き、効率的に旅行プランを立てられる
OpenAI の Operator は、ブラウザを介してユーザのタスクを支援するエージェントの研究プレビュー版である
Operator は Instacart のような特定のウェブサイトに最適化されておらず、人間が利用するのと同じブラウザインターフェースを使用する
Operator は、レシピ検索から食材の買い物カートへの追加まで、ウェブサイト上のタスクを自動で実行できる
Operator は API やプログラミングインターフェースではなく、人間が操作するのと同じようにキーボード入力やマウス操作でブラウザを制御する
Operator の動作は画面上で視覚的に確認でき、テキストベースの思考連鎖に基づいた計画と実行プロセスを追跡できる
タスク実行中に不明確な点があれば、Operator はユーザに確認を求めることで、より正確な結果を得る
ログインや購入などの機密性の高い操作が必要な場合、Operator はユーザに制御を委ね、安全性を確保する
Operator は、ユーザが操作内容をダブルチェックできるように設計されており、透明性と信頼性を重視している
Operator は、人間が普段利用するブラウザインターフェースをそのまま利用するため、プログラマーでなくても理解しやすい
Operator は、複雑なタスクを自動化し、ユーザの負担を軽減する可能性を秘めている
以上となります。