
Open AIがWeb上のタスクを実行できるAIエージェントOperatorを発表
Open AIがWeb上のタスクを実行できるAIエージェントOperatorを発表しました。
ユーザーの代わりに、Webページ上での入力、クリック、スクロールなどの操作を行い、さまざまなタスクを自動化することが可能とされています。
2025年のAIにおいて、重要キーワードともされるAIエージェントですが、このOperatorが、その普及の第一歩となる可能性もあります。
今回はOperatorについて、現在わかっている情報をまとめ解説したいと思います。
Operator概要
まずはOperatorとはどんなものなのでしょうか?
そしてどのようにすれば使用できるのでしょうか?
・Computer-Using Agent(CUA)」と呼ばれるモデルを使用
・GPT-4oの視覚機能と強化学習による高度な推論を組み合わせ
・現在は米国のChatGPT Proユーザー(月額200ドル)に限定した研究プレビュー版として提供
・将来的にPlus、Team、Enterpriseプランへ拡大予定
・API非依存のためウェブサイトがAPIを公開していなくてもUIを直接操作できる
・誤操作の自己修正機能があり、強化学習で自ら精度を改善できる
現段階では、日本での使用はできませんが、VPNなどを使ってアクセスする、という方法はあるでしょう。
Operatorの動作フロー
Operatorがどのような仕組みで動作しているのか、発表されている範囲で考えてみると
スクリーンショットで画面を解析
タスク達成に必要な操作手順を推論
マウスクリックやキーボード入力を再現
ビジョン→推論→操作を順番で、または相互に行き来しつつ、作業を行う仕組みと言えそうです。
機能と機能を繋ぐことによって、人間が行なっている様々な作業を自動化できるようになっています。
どんな自動化が可能か?
現在行っている様々なウェブ上での作業について、自動化ができると言う事は活用範囲も非常に幅広く多岐にわたり、アイディア次第では何でもできそう、ともいえますが簡単に想像できる例をいくつか挙げてみたいと思います。
まずはネット記事などで紹介されている簡単なものとして
・レストラン予約
希望時間の検索・空き状況確認・予約確定
・ネットスーパーでの買い物
商品リストの画像認識→カート追加→購入確認
などがすぐに思いつきますが、それ以上に 複雑でかつ作業や運営が大変なものを自動化することも可能かと思います。
例えば
・SNSの運営
アカウントの目的を設定すると自動でSNS運営をしてくれる
・ウェブマーケティングの自動化
プロダクトやサービスに応じて、ウェブ広告を制作→出稿→分析→l改善のサイクルを自動化
・ウェブ営業の自動化
登録したメーリングリストに自動メール→返信の確認→それぞれの内容に合わせた処理を行う
など。
ビジネスを行っていると、これらの作業というのはとても煩雑で大変なので、自動化できるのは非常に魅力的に感じられます。
現在これらを業務として行っている企業にとっては少なからず(大きな?)脅威となることが考えられるのでしょう。
性能、精度
とは言え、本当にOperatorがAIエージェントとして期待に応えるにはかなりの性能、精度が必要です。
期待値がどんなに高くても、進化が見込まれても、実際に使用できて、普及するのか?はまた別問題です。
現在Operatorの精度については、ベンチマーク結果が発表されており、それによると、WebVoyager(実際のサイト操作)で87%の成功率ということです。
87% と言うのは、数字としては高い確率のため精度も良い、と感じられるかもしれませんが、実際様々なAIモデルなどについて開発研究をしていた立場からするとまだ実用化は難しいかもしれないと感じる数字ではあります。
またOS操作(Ubuntu等)では成功率38.1%というのは、明らかに大きな課題も残っていると言えます。
これは今後の進化に期待するしかないですが、、、
ただし、今のAIの進化を思うと、大きな改善が見込まれる予測ができるのもまた事実です。
だからこそ期待されているのでしょう。
安全性とプライバシー対策
気になる安全性やプライバシーについて、このような対策がされていると発表されています。
・ユーザー確認機能
購入や予約確定前には必ず確認を要求
・ブロックリスト
違法・有害サイトへのアクセスを自動拒否
・データ管理
リモートブラウザのCookie/履歴を一括削除可能
学習データ利用のオプトアウト設定
AI自体の安全性やプライバシーについてはそもそもまだ議論の最中にあると言えるのですが、 エージェントの場合は自律的に個人情報等へのアクセスが 行われることが前提のため、特に配慮が必要です。
現状の課題と今後の展望
現状の課題
複雑なインターフェイス(スライド作成やカレンダー管理)への対応が不完全
金銭関連や機密情報の操作は難しい
今後の展望
・CUAのAPI公開
各企業や開発者がOperatorのAPIを使用したサービスを作り提供
・企業連携
DoorDashやUberなどとの提携で実用性向上
・ChatGPT統合
将来的に通常の会話から自動操作をトリガーする可能性
個人的にはAPI提供は気にはなります。
様々なビジネスに使用することができるでしょう。
またChatGPTへの統合は、Operatorが順調に進化するのであればいずれなされるのが必然ではないかと言うふうに考えます。
一般のユーザがOpertorによって、 簡単にAIエージェントのメリットを享受できる日も近いかもしれません。
まとめ
Operatorは「AIがブラウザを操作する」という新たな可能性を切り開き、定型作業の自動化や時間効率化に革新をもたらす可能性があります。
そしてそれを専門家だけではなく、 誰もが使用できるようになる、そんな未来への第一歩となるのかもしれません。
現段階では研究プレビュー版のため完全性に課題はあるものの、今後の進化に注目していきましょう。