見出し画像

【国内最速級】ChatGPT Operatorを実際に使ってみた【機能解説】

はじめに

最近、話題になっているChatGPT Operator。

https://openai.com/index/introducing-operator/

現在、公式には米国のproユーザーしか使えないことになっているのですが、機会があって社内で実際に使うことができたので、今回はその機能を解説してみようと思います。

米国しか使えず…。
通常は、日本国内からだとまだ利用不可能。

Operatorが来ると、ChatGPTはどう見えるか

Operatorが利用できるようになったChatGPTユーザーの場合、ChatGPTの画面上、Soraの上に、Operatorの項目が出現します。

Operatorの項目が出現する。

これをクリックすると、Operatorの専用ページにアクセスできます。

裏を返せば、これが来ていれば、恐らくあなたはoperatorを使用することが可能になった、ということになります。

Operatorの画面と使い方

基本画面

こんな感じ。

Operatorの画面には、個人で保存したタスク(後述)のほか、テンプレートとなっている各種タスクが例示されております。

例えば「Dining & Events」タブを見た場合。

サイドバー

Operatorの左側には、ChatGPTのように履歴と新規の項目があるほか、現在裏でActiveなタスクの情報も見ることができます。

アクティブなタスクの情報が出る。
実際に何かしらタスクを実行すると、こうなる。

実行中の画面

Operatorの実行中は、ミニブラウザが内側に立ち上がり、何をしているかがライブで映されます。

まだ研究段階のツールに、購入や予約はあまりやらせたくなかったので、無難にニュース検索系を選んでみた。

実行後の画面

タスクが終了すると、結果が説明されます。
ただ、ニュース解説系では、まだ説明不足気味のようです。

ニュース記事の解説がたった3行で、後は見てね、と言われても…。

実行後の画面には、通常のChatGPTにも存在するコピーとlike/dislikeのほかに、「view」というものが出てきます。

View。ChatGPTにはない項目。

これをクリックすると、ブラウザが大画面に出てきます。

大画面にブラウザが表示される。

画面にホバーすると、「Take control」というボタンが表示されます。

「Take Control」ボタン。

Operator browserを自分で制御する

これをクリックすると、一連の注意が表示されます。

Operatorのブラウザをいつでも制御したり、Operatorを手伝ったりできる、というメッセージ。
Operatorは制御中はスクショを取らないよ、というメッセージ。
サイトデータやログイン情報はセッションをまたいで保存するので、継続作業が可能。
整理したい場合は設定画面の「Manage data」でやってね、というメッセージ。

これらについて、「Next」「Done」をクリックすると、Operatorのブラウザを自分で制御できるようになります。

例えばMarketsにホバーしたら、ちゃんと動く。

ただし、動作は通常のブラウザより重いので、必要性がない場合はあまりお勧めしません。

制御は、「Finish up」をクリックするとやめることができますが、その際に、何か変更した場合は、何をしたかOperatorに教えることも可能です。

Exit to chatを押すと、元の画面に戻り、Return control to Operatorを押すと、自動でOperatorが処理を再開します。

何もしていなくても、Controlを渡すと何か始めたがってしまうので、そこは注意すること。

シェア画面

タスクが終了すると、シェアをすることができます。
ただし、通常のチャットと異なり、シェアは「動画」で行われます。

sharable videoをまず作成。

「Create shareable video」でまずビデオを作成することができます。

押すと、作成画面が立ち上がります。

完成した動画を、この画面から公開することも可能ですし、元の画面の「View Video」「Publish」からも公開することができます。

動画を作ると、元の画面のシェアはこのように変化する。

動画が完成すると、どんなことをしたのか、動きを追えるようになります。

こんな感じ。

実物を共有します。

国内でも、シェアされた動画の閲覧は可能なようです(手元検証結果)。

なお、後述するinstructionの検証ケースで分かったのですが、一度シェアしたビデオも、sync videoという項目によりアップデートできます。

タスクの保存

いい感じに動くタスクは、Shareボタンの隣の、「Save Task」から個人用として保存することができます。

これをクリックすると、タスクの概要が自動的に記入されます。

自動入力。

その内容に不備がある場合は、手入力で修正しても構いません。

いい感じであれば、Saveします。

Saveされたタスクは、設定画面に表示され、ここからの編集や削除も可能です。

Saveすると、このようにSaved tasksに表示される。
編集画面。

また、個人用タスクとして、Operatorのトップ画面に表示されるので、お手軽に呼び出せるようになります。

無事追加されたのが確認できる。

Operatorの設定画面

Operatorの設定画面は、通常のChatGPTと同様、サイドバー左下のアカウントをクリックすることで開けます。

General

こちらから開いた場合、最初に立ち上がるのはGeneralタブです。

ここには、基本的な情報が記載されます。

Generalタブ。

ここでは、テーマ、ブラウザ通知有無、メール(確認のみ)、アカウント設定(ChatGPT側へ移動するだけ)、ログアウトのほか、専用のCustom Instructionsが設定できるようです。

このCustom Instructionsは、Operator全体で利用可能、とのことです。

Saved tasks

こちらでは、先述のような、タスクの管理・編集・削除ができます。

Createがあることに注目。

加えて、この画面で完全新規に個人タスクを作成することも可能です。

実際に開いてみると、以下のような画面が表示されます。

まっさらなタスク作成画面。

既遂タスクのセーブ時と異なり、自分の手ですべて入力する必要がある点は注意が必要です。

Websites

Websitesタブでは、現時点で公式の対応が行われているサイトがリストアップされています。

対応サイトがリストアップされている。

クリックすると、個人用設定が追加できるようです。

Meme Generatorを例にとる。他でも基本構成は同じ。

ここでは、追加指示(Additional instructions)をセットしたり、ログイン済みなどの場合にログアウトとキャッシュ消去を実行したり、個人的なカスタマイズそのものの削除を行ったりすることもできます。

Additional instructionsは、Editをクリックすると、その場で編集・保存ができます。

例えばこんな感じ。

Privacy

最後は、Privacyタブです。

Privacy。

ChatGPTと共通の学習設定や、ブラウジングデータ・チャット履歴の管理ができます。

Browsing dataだけ、開くと、このような画面になっています。

Browsing data。

全体削除のほか、サイト別データの管理もできます。

Site Dataを開くと、以下のような画面になります。

まあ、基本は放置でも大丈夫のはず。必要に応じて管理。

設定画面は、以上となります。

Operatorにおけるinstruction系の威力を調べてみる

さて、せっかくいろいろinstructionが設定できると分かったので、実験してみましょう。

Custom Instructionsをツンデレにして、先ほどAdditional Instructionsを入れたMeme generatorで、どんなミームができるかテストしてみます。

ツンデレエージェント、できるなら魅力的じゃない?

せっかくなので、空っぽの個人用タスクから新規作成して、それでやってみましょう。

こんな感じ。

これを実行してみます。

こんな感じ。

応答は日本語で、確かに日本文化を意識していますが…ツンデレ口調はどこかに消えてしまいました。

ただ、そもそも口調指示系Custom instructionsは、よほど強く言わないと聞かないので、ここは将来的にまだプロンプトエンジニアリング層が入って、いろいろといじる余地が残る領域かもしれません。

…と思ったら、二発目で発動しました。

ただ、完全なツンデレでもないかも。

せっかくなので、出来上がったミームと、作成過程もシェアしておきます。

なんか、ミームっぽさはあるけど…ちょっと違う。

まとめ

ここまで、ChatGPT Operatorの各種機能と使い方を説明してきました。

基本的な使い方を押さえて、実際に使ってみたところ、Browser Useに比べても、対応済みサイトでは比較的素直に動いてはくれるようでした。

ただ、ニュース系のまとめはまだデフォルトの指示では短くなりすぎたり、公式のリストにないサイトのテストなどではまだまだうまく行かないという報告もあり、そうしたところが、現在research previewである理由なのだとも感じました。

大きな方向性としては、以前書いたように、AIエージェントがウェブを操作する時代が現実的になりつつあると思います。

ただ、API処理に比べると、原則として遅いことにも注意が必要です。

共有動画では短縮されていますが、実際には、10秒かそこらで済む処理に数分かかっているのが、今のAIエージェントによるブラウザ操作です。

そのことを踏まえたうえで、これまでAI界隈では、技術的な障壁でしかないものはやがて解消されてきました。

例えば、AI生成画像の指がおかしくなったり、パスタを食べる動画で手づかみしてしまったりする初期のAIの個別の課題は、それぞれ数か月スパンで着実に改善されてきました。

同様に、恐らく年内には、人間並みに高速なブラウザエージェントが誕生しても、おかしくはないと思います。

そうなった時に、どこまでAIを制御して、どんな操作をさせるか?

そのことは、今から考え始めておいた方がいいでしょう。

そうした意味でも、Operatorの日本への本格上陸が楽しみですね。

おまけ:Xの投稿は行けた(ログインアラートは出る)

ちなみに噂通り、Xの投稿はいけました。

ただ、あまりに異なる環境からのログインとなり、ログインアラートなどが出てくるので、あまりオススメはしません。

いいなと思ったら応援しよう!