見出し画像

新機能!ChatGPTオペレーターを試してみた 🤯 使う価値はある?

8,155 文字

ChatGPTがブラウザを操作して、自律的にタスクを実行できるようになりました。例えば、Amazonで最適な商品を検索したり、学会のウェブサイトで興味深い講演を探したり、メールを作成して自動的に送信したりできます。これは新しいOperator機能のおかげです。私はすでにこの機能を試してみましたので、その最初の印象を詳しくご説明したいと思います。
昨日、OpenAIがOperatorを発表し、今日からすでに使用できます。まずは、Operatorとは何かを説明しましょう。Operatorは、ChatGPTに接続された最初の自律型人工知能エージェントです。ChatGPTにブラウザを通じて実行可能なタスクを依頼でき、ブラウザを制御してタスクを完了するために必要なすべてのステップを計画します。
プレゼンテーションページでは、その動作が示されています。この最初のキャプチャでは、ChatGPTのように指示を出すと、思考の連鎖ではなく、自律的な行動の連鎖が表示されます。これは私たちのコンピュータではなく、ChatGPT内のブラウザウィンドウで実行され、タスクが完了するまで続きます。
技術的な仕組みとしては、CUA(Computer Using Agent)と呼ばれるシステムを作成しました。これはGPT-4の画面認識能力と、強化学習に基づく推論プロセスを組み合わせたもので、ChatGPTが画面上で見ているものと対話しながら、タスクを完了するために必要なアクションを作成していくことができます。つまり、画面上のものを見て処理し、次に何をすべきかを決定し、我々が望む結果に到達するまでシーケンスを進めていくのです。
後でこの記事に戻って、言及する価値のある興味深い詳細がまだありますが、今は実際の例を使ってこのツールにアクセスする方法と、どのように機能するかを見てみましょう。
このツールにアクセスするためには、まず、現時点では月額200ドルのプロアカウントユーザーのみが利用できるということを言っておく必要があります。アクセスするには、自分で生成したGPTの直下にOperatorオプションが表示されます。クリックするとChatGPTの外に出て、Operatorという名前が表示された新しいインターフェースに移動します。
ここではChatGPTの会話フローを簡略化したようなバージョンが表示されます。これはまだ実験的なベータ版なので、完全には機能しない場合もありますが、これまでの結果は、タスクの複雑さはそれほど高くないかもしれませんが、かなり驚くべきものだと思います。すでにある程度の有用性があり、まだ制限はありますが。
このインターフェースに入ると、ChatGPTに質問するのと同じくらい簡単に機能します。それでは、いくつか例を見ていきましょう。
最初に、動作の仕組みを見ていただくために、2つの簡単なタスクを実行してみます。最初のタスクは、単にAmazonで具体的な特徴を持つ商品を検索するというものです。この場合、私は「私のPanasonic GH5(これは私たちが持っているカメラです)用の経済的なレンズのAmazonでの最良のオプションを探してください」とお願いしました。
すると自動的にOperatorのインターフェース内でブラウザが開き、ウェブ上を検索し始めます。Amazonのセクション内で検索を開始し、Panasonic GH5用のレンズを探し始めているのが分かります。タスクを展開すると、異なるステップが表示され、フィルターで検索し、価格の安い順に並べ替えようとしているのが分かります。
現在、経済的なオプションを特定するために、異なる結果を分析しているところです。35mmのMeikeレンズのオプションに落ち着いたようです。これは確かに良いオプションで、経済的な選択肢です。Panasonicのこのカメラ用のレンズ、利用可能なレンズの中では最も経済的なものの一つで、約80ユーロです。カメラとの互換性を確認し、再度35mm Meikeを確認しています。
最終的に次のような回答を作成しました:「Panasonic GH5用の経済的なレンズをAmazonで見つけました。手動フォーカスのMeike 35mmで、価格は80ユーロです」。実は、これはかなり良い推奨です。私が手動で検索した時は、このレンズではなく、ほぼ同じスペックの競合製品であるSeven Artisans(これも手動フォーカスで35mm)を選びました。したがって、かなり正確な回答に達しました。
ここで、「カートに追加して購入を続けて」というようなプロンプトで、購入プロセスを続けるという別のタスクを割り当てることもできます。ブラウザに戻り、カートに追加しようとしているのが分かります。注目すべき点として、保険プランを選択しないことを決定し、チェックアウトセクションに進んでいます。ここで資格情報を入力する必要があると言われるでしょう。
この時点で最善の方法は、コントロールを取ることです。「take control」をクリックするか、このインターフェースのもう一つの表示モードに切り替えることができます。左側に会話が表示され、右側により大きなサイズでブラウザが表示されるこのモードの方が作業しやすいかもしれません。ここで「take control」をクリックして別の画面に移動し、手動でサインインを行い、完了したことを伝えてチャットに戻ることができます。
このやり取りを続けるために、メールを送信する2つ目の例を見てみましょう。しかし、ここで一つ問題があることに注目してください。すべてのナビゲーションがやや遅かったのですが、後で説明しますが、タスクが完了したら通知を送ってもらうことができるので、これはそれほど深刻な問題ではないと思います。つまり、バックグラウンドで作業させておくことができます。
これが、Operatorにタスクを割り当てる最初の例で、自律的にステップを割り当て、完了させて回答を提供する方法です。この場合、すでに申し上げたように、正確な回答が得られました。
より複雑なタスクの例に移る前に、認証が必要な簡単な例を見てみましょう。この場合、Gmailアカウントから別のメールアドレスにメールを送信するようお願いします。使用する指示は次の通りです:「このアドレスに、私のGmailアカウントから件名『こんにちは』、本文『こんにちは』でメールを送信できますか?」
送信すると、プロセスが開始されます。より大きな表示でタスクの実行を見てみましょう。Gmailに移動し、ここに作成済みのアカウントがあることを認識し、認証が必要だと言っています。以前にいくつかのテストを行ったため、すでにログインしていたアカウントを覚えていますが、それでも再認証を求められます。
ここでコントロールを取り、ブラウザと対話します。少し遅延がある感じですが、マウスを使って完璧にこのアカウントにアクセスできます。ここでパスワードを追加する必要があります。パスワードを入力して「次へ」をクリックすると、このGmailアカウントに完璧にアクセスできました。
ここで単に完了をクリックしてOperatorにコントロールを戻すと、自動的にメール送信のタスクシーケンスを続行します。ここでメールアドレス、件名、本文が正しく入力されているのが分かります。このアドレスに指定した2つの内容でメールを送信する準備ができたと言われ、再度確認を求められます。「はい」と答えると、自動的にこのメールが送信されます。
「take control」をクリックして送信済みフォルダに移動すると、送信されたメールがあります。同様に、メールを受信したアカウントに移動すると、件名「こんにちは」、本文「こんにちは」のメールがあります。
この簡単な例で見ていただきたかったのは、タスクを自律的に自動化できますが、ログインや電子メールの送信の確認など、すべての重要なステップについて、私たちの確認を求めるということです。つまり、自律的なエージェントですが、かなり慎重です。これは、現在のこれらのツールの開発段階では良いことだと思います。
より複雑な使用例に移る前に、人工知能に関するすべての最新情報を常に入手したい場合は、このチャンネルを購読できますし、私のニュースレターも購読できます。毎週すべての更新情報と追加情報を送信しており、購読するとすぐに、以前の別の動画で説明したCanvasを使用した執筆アシスタントなど、いくつかの興味深いGPTをプレゼントとして受け取ることができます。人工知能の最新情報を入手したい場合は、説明欄にリンクがある私のニュースレターの購読をお勧めします。
それでは、最後のデモに移りましょう。ウェブサイトのナビゲーションがより具体的で複雑なタスクと、おそらくあまり知らないウェブサイトで情報を処理し、電子メールを送信するようなタスクを組み合わせた、少し複雑なデモです。
この場合、最後のデモとして次のように設定しました:「次回のMobile World Congressの人工知能に関する講演を探し、コンテンツクリエイター向けの最も興味深い5つの講演の要約と、その選定理由を作成し、このメールアドレスに私のGmailアカウントを使って送信してください」
分割表示モードに切り替えて、ナビゲーターを見ながら異なるタスクの実行を見ていきましょう。Mobile World Congressの公式ウェブサイトを検索し、ウェブサイトにアクセスします。ここで異なるタスクを展開できます。クッキーを受け入れ、アジェンダを探し、人工知能のセッションを探すためにテーマを検索しています。人工知能のプレゼンテーションのテーマを選択しています。
少し遅延がありますが、両側でタスクが進行しているのが分かります。人工知能のプレゼンテーションセクションの探索を開始し、セッションを探しています。アジェンダにいるようで、人工知能関連の情報とさまざまなセッションの詳細を収集しているようです。コンテンツクリエイター向けの特定のセッションを見つけようとしています。
セッションごとにこの情報を取得しているようです。人工知能関連のセッションを見つけるためにアジェンダも探索しています。各セッションの関連詳細を見つけるためにセッションを探索しています。この場合、かなり時間がかかるでしょう。すべての日程の人工知能セッションを1つずつ確認しなければならないので、かなりの数になります。
基本的に、左側で見えるように、すべての講演に1つずつアクセスして情報を収集し、後で要約を作成できるようにしています。今は日を変更して3月4日のアジェンダに移動しているのが分かります。Mobile World Congressのすべての人工知能セッションを1つずつ確認しようとしているようです。
ここですべてのタスクが完了しているのが分かります。確かに時間がかかりましたが、アジェンダ全体を分析したのが分かります。今はメールを書く段階です。アドレスを正しく配置し、メールを正しく書いているのが分かります。
最も興味深い点は、タスクが完了したという通知が表示されたことです。つまり、タスク全体が完了するまでここで待つ必要はなかったということです。興味深いのは、今「take control」をクリックしてメールが正しいかどうかを確認できることです。
このメールに書かれていた内容は次の通りです:「Mobile Congress 2025の人工知能セッションの要約」で、コンテンツクリエイター向けの最も興味深い講演として、「創造性の時代における生成AI力の解放」を挙げています。
また、「AIとコンテンツ制作:ストーリーテリングの未来」という講演も興味深いとしています。3月5日には「ウェブは死んだ:エージェントAIがポストウェブ時代の幕開けとなる」を選んでいます。
また、「Search Worlds:AI主導の検索の競争」も選んでいます。これは特にクリエイターやメディア関連の人にとって興味深い選択だと思われます。最後に「人工知能の限界を超えて:新時代のビジネスチャンス」も選んでいます。これは埋め合わせのような感じかもしれませんが、最初の4つは非常に適切な選択でした。
ただし、これらの5つの講演が実際にMobile World Congressのアジェンダに存在することが前提です。AIが広範なコンテキストで作業していないため、誤った情報を生成した可能性があります。作業は比較的遅かったものの、数ページを訪問しただけなので、コンテキストの問題ではないはずです。しかし、これらの講演が実際にMobile World Congressのアジェンダにあるかどうか確認する価値があります。
最初の講演は「unlocking the power of generative AI in an era of creativity」で、3月4日10:30に開催されるとされています。Mobile Worldのアジェンダで、AI PlusとAXLのブロックを選択すると、10:30にAIセッションはありますが、Operatorが言及したものとは異なるようです。ChatGPTの回答では「unlocking the power of generative AI」となっていますが、実際のテーマはスタートアップの資金調達に関するもので、創造性に関するものではありません。
2番目の講演も3月4日12時に予定されているとのことですが、確かにその時間にAIの講演はありますが、タイトルは「AI Power content creation」となっているはずが、単なるパネルディスカッションです。フィルターを解除してすべての講演を確認しても、12時には他の講演もありますが、AIに関するものは先ほど見たもののみです。
驚くべきことに、最初の2つの講演はMobile World Congressのプログラムにはありません。AIが最初の2つの回答を誤って生成したようです。
他の3つを確認してみましょう。3番目は3月5日の講演です。再度フィルターを有効にして、AIセクションを確認します。3月5日15:45に「ウェブは死んだ」という講演があるはずですが、実際にありました:「ウェブは死んだ:エージェントAIとポストウェブ時代の到来」。これで3つのうち1つが確認できました。
3月5日10時には5番目の推奨講演「AIの限界を超えて」があるはずで、これも実際に存在することが確認できました。現時点で最初の2つは誤って生成され、3番目と5番目は存在することが確認できました。
残るは4番目で、3月6日12:30の「AIを使用した検索戦争」ですが、これも存在することが確認できました。なぜか最初の2つの講演を誤って生成してしまいました。5つのうち2つは私が求めていた目的、つまりコンテンツ作成に関連する講演として非常に適切でしたが、100%関連する講演が見つからなかったため、2つを作り出してしまったのかもしれません。
結論として、約10分待って得られた回答は、現時点では信頼できないものでした。5つのうち3つしか正確ではなく、最初の2つは完全に存在しませんでした。かなり遅く、非効率的でした。同様のタスク、つまりウェブから情報をスクレイピングし、視覚的な方法で処理し、その情報をコンテキストとして取得して言語モデルで処理するようなタスクを実行できる自動化ツールは他にもあります。
このツールは現時点では、非常に具体的で特定の、明確に方向付けられたタスクにのみ適していると思われます。多くの情報を処理し、多くのアクションを繰り返す必要がある少し複雑なタスクを依頼すると、混乱して誤ったコンテキストで回答を提供する可能性があるようです。
ビデオを締めくくり、結論を出すために、プレゼンテーション記事を最後まで確認しましょう。現在は研究用の予備バージョンであることを忘れてはいけません。私が提案したタスクでの失敗は予想以上に深刻でしたが、複雑なタスクではなく、特定のコンテキストを保持しながらループを実行する必要がある反復的なタスクだったにもかかわらず、何らかの理由でコンテキストを維持できませんでした。
しかし、これは改善されるツールであり、このような問題は解決されると思います。この基本的な機能を超えて、Operatorが可能にする興味深い機能の1つは、ここで述べられているように、ブラウザで複数のタブを使用するのと同様に、複数のタスクを同時に実行できることです。
この場合、遅いということはそれほど深刻な問題ではありません。なぜなら、単に作業させておけば良く、Operatorタブでブラウザを複数回開いて複数のタスクを同時に実行できるからです。定期的なタスクをプログラムしたり、素早くアクセスしたりする機能があることを考えると、興味深いツールになる可能性がありますが、タスクが非常に複雑になるとAIが誤った情報を生成する可能性があることを常に念頭に置く必要があります。
このツールを使用する際のセキュリティ対策も興味深いと思います。セキュリティとプライバシーのセクションでは、以下のような重要な点が強調されています。例えば、機密情報を要求する際、Operatorは常にユーザーに情報の入力を求め、ユーザーが機密情報やセンシティブな情報、パスワードをどのように扱うかをコントロールできるようにしています。
重要なタスクやステップを実行する際は常に確認を求めます。例えば、メールを送信する前など。また、銀行取引やハイリスクな決定を必要とするような繊細なタスクは受け付けないようにトレーニングされています。
さらに、メールや金融サービスなどの特に機密性の高いサイトでは、監視モードがあり、Operatorの行動は厳密な監督を必要とします。つまり、何かを実行する際のユーザー確認のステップがあり、それを確実にする別の方法もあります。
これらすべてに加えて、動画で説明したように、危険なタスクや潜在的に違法な行為を防ぐための一連のセーフガードがあり、このような種類のエージェントで誰かが潜在的に違法なことを行った場合に備えて、キャプチャを監視するシステムもあります。
いずれにせよ、セキュリティの問題は、このOperatorだけでなく、これは私たちのブラウザと対話するような同様のことを行う多くのエージェントの最初のものなので、今後興味深いトピックになると思います。多くのウェブサイトは、ウェブサイトを閲覧する際の人間の対話をシミュレートするような、このタイプの攻撃に対して準備ができていないと思います。
Operatorの経験、最初の印象として、現時点では非常に単純で反復的なタスク、または綿密な監督を行うタスクを自動化するのに便利なツールになる可能性があると感じています。ただし、タスクを自動化した後、半分しか正しく完了していない場合、それを確認するのにタスク自体を実行するのとほぼ同じ時間がかかるような場合は、この技術は有用ではありません。
しかし、簡単で検証しやすい、日常的に行うようなタスクについては、使用事例を見つけることができると思います。本質的には、これは実験段階のツールで、プロユーザーがツールのテストを完了するために使用しています。このツールにアクセスするために200ドルを支払うことを考えると興味深いですが、現時点では非常に複雑な自動化を行ったり、完全に自律的に実行できるタスクを割り当てたりするための準備ができているツールではないと思います。
しかし、それでも興味深い使用事例を見つけることができると思います。ChatGPTについてもっと知りたい場合は、ニュースレターを購読するか、このビデオを見続けてください。

いいなと思ったら応援しよう!