![見出し画像](https://assets.st-note.com/production/uploads/images/171418438/rectangle_large_type_2_b581142d2c5fbf0f96efdd05c1a8148b.png?width=1200)
AIエージェントの体験設計
この記事では、OpenAIが開発でぃたAI AgentシステムであるOperatorのインターフェースとユーザーとのインタラクションに焦点を当て、その背後に隠された体験設計の考え方を掘り下げる。単なる機能紹介にとどまらず、AIと人間の役割がどのように交錯し、ユーザーがどのタイミングで介入し、どんな場面でAIに任せられるのかなど”Agentic Experience”を考えるうえでヒントになれば幸いだ。
こんな人におすすめ
生成AIの企画・プロダクト設計に携わる人
AI時代のインタラクションに興味があるUXデザイナーやデザイナー
AI Agentに興味がある人
キーポイント
プロセスを記録させる
プロセスを追跡可能にする
体験を共有可能にする
「Human in the loop」と「Human on the loop」を織り交ぜる
AIと人間の引き継ぎを滑らかにする
OpenAI 「Operator」とは?
そもそも「Operator」は、インターネットを使って、ユーザーの代わりにタスクを実行するOpenAIがリリースしたAIエージェント機能だ。Webページを操作するために、専用のブラウザを使用し、入力やクリック、スクロールなどを自動で行うことができる。
![](https://assets.st-note.com/img/1737703296-RLtXMfSs5VzFGa2rmIiCNDBk.png?width=1200)
主な特徴
タスクの自動化: 「Operator」は、日常的に繰り返し行う作業、例えばフォームへの記入や食料品の注文、ミーム作成などを代わりにやってくれる。これにより、ユーザーは時間を節約できる。
簡単な操作: 「Operator」は、ユーザーと同じようにWebページを操作できるインターフェースを持っている。これにより、特別な設定や複雑な統合なしでWeb上のタスクを自動化できる。
CUA(Computer-Using Agent)モデル: 「Operator」は、GPT-4oの視覚機能と強化学習を使って、画面上のボタンやメニュー、テキストフィールドを操作する方法を学んでいる
1/24現在「Operator」は米国のProユーザー向けに、operator.chatgpt.comで利用可能。将来的には、Plus、Team、Enterpriseユーザーにも拡大し、これらの機能を「ChatGPT」に統合予定。
About Operator
ユースケース
どんなことができるかもう少し具体ケースを紹介すると
フォームへの自動回答
ホテルをレビューを読み込んで比較検討・予約
あるテーマを指定して関連する記事や論文をウェブベースのエクセルにまとめ続ける
.....などなどだ
まだ実運用には耐えないけど。
プロセスを記録・追跡させる
ここからが本題。
「AI Agentが何をするかわからない!」と怖がる人もいるかもしれない。
AIエージェントを使用する際に重要な要素のひとつは、タスクのプロセスを記録し追跡可能にすることだ。
つまり、タスクの実行過程をしっかりと記録することで、ユーザーは後からその手順を振り返ることができる。
![](https://assets.st-note.com/img/1737699098-AYDy6kQ45KdGPXq3UoZ1VLur.png?width=1200)
たとえば、Operatorでは、タスクの進行状況をリアルタイムで自動録画する機能が提供されており、ユーザーはその録画を確認することで、AIがどのようなステップで作業を進めたのかを明確に把握できる。
この記録は、タスクの透明性を高めると同時に、後で修正が必要な場合にも非常に有用だ。プロセスを記録することで、AIが行った作業が正確であることを追跡でき、万が一の誤操作や不具合を発見しやすくなる。
![](https://assets.st-note.com/production/uploads/images/171411106/picture_pc_ff77712848a995b46ccad47511a52689.gif?width=1200)
しかも、Operatorは思考・アクションされた内容(左側)をクリックすることで、該当の操作動画の時間にジャンプすることができる。
体験を共有可能にする
タスクの進行過程や結果を他のユーザーと共有できる機能を提供することで、チーム全体での協力や、他者からのフィードバックを受けることが可能になる。他のエージェントにこの過程をチェックさせることもできるだろう。
![](https://assets.st-note.com/img/1737699737-j80uT3JtYxpirCMhbvWHlFyz.png?width=1200)
これは、プロダクトマーケティングの観点でも有効であろう。また、操作記録が「引継書・手順書」の一端を担うと考えると面白いかもしれない。
現状のOperatorのタスク完了速度は遅いためか、動画は再生速度を早くしてくれているのも気が利くなー。
「HOLT(Human on the loop)」と「HITL(Human in the loop)」を織り交ぜる
そもそも、HOTLとHITLって何んなんだって人もいるかもしれない。
HOTL (Human on the loop) は、AIが主体的にタスクを進めながらも、人間が常に状況をモニターしていて、必要に応じて介入できる設計である。通常はAIが自律的に動き、人間はバックグラウンドで見守る形になるため、タスクの大部分が自動化される。
一方、HITL (Human in the loop) は、人間がシステムの動作トリガーを握りながら、必要に応じて都度操作を行う仕組みである。つまり、AIが提案したアクションをユーザーが承認し、必要があれば修正や中断を行う。これにより、重要な意思決定や安全性が求められる場面で、人間が主導権をもつことができる。
Operatorはこの双方の設計思想が絶妙に織り交ぜられている。
タスクを依頼すると基本的には主体的に進めていき、それを人間が監視している状態である。そして、一方で動作画面をみながら常にすぐに介入することができる。つまりHOTLである。
![](https://assets.st-note.com/img/1737700184-yHZpRrcx9qQM3AkFejbIidL8.png?width=1200)
画面中央の<take control>ボタンを押すと、人間に権限が移る。
するとこのスクリーンを操作することができる。
![](https://assets.st-note.com/img/1737700356-KQyZX6fe0PgjvSkiOTGchm12.png?width=1200)
また、この間の操作記録はセキュリティ観点から録画・記録されないことになっている。
一方で、AIがブラウザを操作していると例えば以下のようなアクションが必要な場面において、ユーザーに判断を煽り、コントロールを引き渡すのだ。
セキュリティリスクが高いタスク(ログインや認証関連の)
削除やキャンセル等の破壊的アクション(予約をキャンセルするなど)
コストや不可逆性が高いアクション(フォームを送信するなど)
方針転換(タスクアプローチ方法を大きく変えるなど)
![](https://assets.st-note.com/img/1737700693-qG4E60R1AbgjLUZwI2efom3S.png?width=1200)
これはログインに際して人間かどうかの認証が走っている場面。
画面左側にAIから「お前が、チェックしれくれないか」と要請が来ている。
つまり、AIが提案したアクションをユーザーが承認し、必要があれば修正や中断を行うHITLである。
AIと人間の引き継ぎを滑らかにする
このHITLやHOTL概念で重要になるのがAIと人間との情報ブリッジである。
これをOpenAIは実現するための工夫として画面下に、人間で私が何をしたのかAIに教えて引き継ぐインタラクションを作成している。( なるほど )
![](https://assets.st-note.com/img/1737700877-E2dBCxJYPDyH7ialUI3u5qZg.png?width=1200)
人間が操作する際の”セキュリティ”と”タスク引き継ぎ”のトレードオフの落とし所といった感じだ。
このようなAIと人間の双方間での引き継ぎという体験が主流になっていくだろう。
もっと賢く・馴染む
一度、人間とコラボレーションをしながら行ったタスクやワークフローの再現可能性を高めるために、保存することできる。
![](https://assets.st-note.com/img/1737701303-vRIyakJPu5QFi4K9rozGlWCB.png?width=1200)
タスク情報と利用したいウェブサイトが主な項目だ。
![](https://assets.st-note.com/img/1737701419-X8hPfItLTYdn5aUF4ZOSeAk3.png?width=1200)
さらに、共通設定画面にはサービス操作において、あらかじめ教えておきたことを保存することができる。
![](https://assets.st-note.com/img/1737698856-MJqarSh6uWdDQ734foBOtgeN.png?width=1200)
![](https://assets.st-note.com/img/1737698885-eGdKPT3q5QvxhC6IlEDVFaHB.png?width=1200)
怖いのでやってないが、ログインID/パスワードも渡して置けるのか?
この設計思想は面白く、AIの制御可能性や動作精度を高めるために、ユーザーが利用する武器(各サービス)に対して情報を持たせているのだ。
サービスが今後増えていくと、入力した内容を修正・アップデートしていくことも大変になるだろう。
AIフレンドリー = 人間フレンドリー になりうるのか?
UIが「なくなる」という議論もありますが、AIエージェントが人間とインタラクションを行う以上、最低限のUIはどうしても必要になるというのが現実だ。たとえば、HITL(Human in the Loop)やHOTL(Human on the Loop)のシステムでは、人間の介入が不可欠です。その際、AIがタスクを遂行するために必要な情報や選択肢をユーザーに提供するUIがなければ、効率的・協調的な作業は難しい。
また、その上でどのようなインターフェースが両者にとってよいのだろうか?
タスク指向型UIとオブジェクト指向型UIを比較したときに、多くの場面においてはオブジェクト指向型UIが人間フレンドリーである。一方で、AIにとっては本当にそうなのか?
AIに「オブジェクト指向型のUI」と「タスク思考型のUI」を操作させて、実は「タスク思考型UI」の方がエラー少なくタスク完遂できました!!みたい実験を誰かにやってほしい。 https://t.co/dPDdpcGhmW
— しょーてぃー (@shoty_k2) January 24, 2025
![](https://assets.st-note.com/img/1737702136-zGvfauZnKrNILQoJg4CUATVb.png?width=1200)
![](https://assets.st-note.com/img/1737702086-N0YDmrtXTevMz8LJyjCxSGPh.png)
「タスク指向UIデザイン」と「オブジェクト指向UIデザイン」を知りたい人はこちらから↓
「Operator」のような次世代AIエージェントの設計思想はいかがであっただろうか?
本当は、Cursor やClineなどのエディターエージェントや昨今概念として話題のアンビエント・エージェントについても触れたい気持ちはやまやまだが、またの機会に。
あらためて、本日のおさらい
プロセスを記録させる
プロセスを追跡可能にする
体験を共有可能にする
「Human in the loop」と「Human on the loop」を織り交ぜる
AIと人間の引き継ぎを滑らかにする
それでは素敵なAgentic Experienceライフを!
記事のいいね!や、note・Xのフォローお願いします!
いいなと思ったら応援しよう!
![しょーてぃー](https://assets.st-note.com/production/uploads/images/151406557/profile_761f26c8a1964013cf78cd38f5d41eb3.jpg?width=600&crop=1:1,smart)