![見出し画像](https://assets.st-note.com/production/uploads/images/171359469/rectangle_large_type_2_830ebd6af514c1cab5c3e432297e5cf4.jpeg?width=1200)
さようならマウス - OpenAIの最初のエージェント!
5,146 文字
オペレーターとエージェントの紹介|AGIに仕事を奪われたい
OpenAIの最初のエージェントはマウスとキーボードのコントロールを奪おうとしています。おそらく、このようなものを使用している場合、人類にはこれは必要ないので、最後の使用になるでしょう。しかし、もしあなたの仕事がコーヒーを飲んでマウスをクリックし、キーボードで何かを入力するだけなら、別の仕事を探す準備をした方がいいかもしれません。これはコンピューター使用エージェントと呼ばれています。ひどい名前ですが、Anthropicからこの名前をコピーしたのが面白いところです。
彼らは「オペレーター」と呼ばれるものを作りました。オペレーターは仮想的な組み込みブラウザで、CUA(コンピューター使用エージェント)を搭載して、あなたの代わりに作業を行うことができます。残念ながら、オペレーターはOpenAI Proユーザーのみが利用可能です。つまり、非常に裕福なOpenAIユーザーであれば、OpenAIはあなたとベータテストを行いたいと考えており、それも世界で最も裕福な国であるアメリカでのみ利用可能です。
OpenAI Proにアクセスできない場合や、200ドルを支払わない場合のために、特別なものを用意しています。まず、これはCUA(コンピューター使用エージェント)で、AIがデジタル世界と対話するための仮想インターフェースです。Rabbitを覚えている人はどれくらいいますか?これはRaspberry Piですが、Rabbitはこのような感じでした。多くの人がRabbitを購入したかもしれませんが、Rabbitにはティーチャーモードがあります。これは文字通りほぼ同じようなものですが、オペレーターの基本を教える必要がありません。
オペレーターがエージェントで、CUAがそのエージェントを動かすものです。コンピューター上のすべてのピクセルとGUI(グラフィカルユーザーインターフェース)を理解できます。例えば、このブラウザを閉じたいと言えば、ブラウザを閉じるためにどこをクリックすべきか知っています。新しいタブを開きたい場合も、新しいタブを開くためにどこをクリックすべきか知っています。
基本的に、これは日常のコンピューターのグラフィカルユーザーインターフェースを使用するために最適化または微調整されたGPT-4モデルです。GPT-4のビジョン機能に強化学習を通じた高度な推論を組み合わせています。CUAは人間と同じように、画面上のボタン、メニュー、テキストフィールドなどのGUIと対話しようとしています。これにより、OSやウェブ固有のAPIなしでデジタルタスクを実行する柔軟性が得られます。
Rabbitも全く同じことをしました。まあ、Rabbitはもう存在しませんが、OpenAIがRabbitを買収してくれればよかったのに。正直なところ、Rabbitはちょっと混乱していました。現在、CUAがオペレーターを動かしています。オペレーターのウェブサイトに行くと、例えば「このスポーツの試合のチケットを5枚予約してください」と言うことができます。オペレーターはGoogleに行き、ウェブサイトを探し、チケット予約のオプション1、オプション2を見つけることができます。
彼らには多くのアプリがあり、すべてがエコシステムと統合に関するものです。食事を注文したい場合はDoorDashが、食料品を注文したい場合はInstacartが既に統合されています。オペレーターはそれぞれのアプリに入って、あなたの代わりに作業を行うことができます。
私の意見では、オペレーターの最高の機能は、オペレーターのコントロールを取り戻せることです。オペレーターにタスクを与えた後、「これはAIにやらせるべきではなく、自分でやるべき時かもしれない」と判断できます。例えば、クレジットカードの詳細を入力する時などです。
しかし、オペレーターにクレジットカードの詳細を入力させますか?それは別の問題です。私はしません。そもそもクレジットカードを持っていませんが、持っていたとしても、OpenAIのウェブサイト内のブラウザにクレジットカードのPINを入力することはしないでしょう。それは馬鹿げていると思います。もし私がそんなことをするなら、記憶喪失かアルツハイマー病になっているのかもしれません。
しかし、OpenAIは、ログインすればデータは安全で、クッキーが存在する限り保持されると言っています。プロンプトインジェクションができないなど、広範なセキュリティがあると主張しています。まあ、誰もがそう言うでしょう。
とにかく、これがオペレーターです。非常に単純で、タスクを与えると特定の作業を実行し、コントロールを取り戻してそれを行うことができます。VDI(仮想デスクトップ環境)やTeamViewerのようなリモートデスクトップ制御ツールを使用したことがある人なら、これが非常に似たようなセットアップだということがわかるでしょう。
最も興味深いのは、その仕組みです。CUAに行くか、チケット予約のようなタスクをテキストとして与えると、ウェブサイト上のすべて、ブラウザタブ画面を取り込み、ページの連続的なスクリーンショットを撮り、それに応じてアクションを実行します。マウスを動かし、多くのことを行います。前述したように、これはVMを搭載したブラウザで、すべてを実行して応答を返します。
ベンチマークに関して、ブラウザだけでなくOSの世界を含むコンピューター使用のベンチマークでは、OpenAI CUAは38.1%のスコアを獲得しています。OpenAIによると、以前の最高水準(State of the Art)は22%で、これはOpenAIの大きなライバルであるAnthropicのものです。
OpenAI オペレーターにアクセスできない場合は、Claude 3.4 Sonnetを使用してブラウザエミュレーションを行うAnthropicのDockerイメージであるComputer Useを使用する方が良いでしょう。私も使用しましたが、かなり良いものです。ただし、多くのことはできず、少し異なります。コンピューター全体を制御するためにComputer Useを使用する方法についての動画も作成しました。YouTubeの説明欄にリンクを貼っておきます。待機リストもなく、アメリカにいるかどうかに関係なく、すぐに使用できます。
次に、ブラウザ使用のみに関する他のベンチマークがあります。WebArenaとWebVoyagerの2つがあり、OpenAI CUAは現在、これらの既存のベンチマークをすべて上回る最高水準です。ウェブブラウジングエージェントだけでなく、ピクセル対ピクセルの比較でもなく、それでもOpenAI CUAの方が優れています。
OSの世界でも、WebVoyagerなどで人間との比較を行った他のベンチマークがいくつかあります。人間との比較の方法論は正確にはわかりませんが、WebArenaで58.1%、人間で78.2%というのは興味深い結果です。人間が行うことに非常に近づいています。
OpenAIは明確にこれを研究プレビューと呼んでおり、正式にローンチするモデルではありません。前述したように、これはベータテストですが、ベータテスターはOpenAIの裕福な高額課金ユーザーです。
例えば、「ケンブリッジ辞書のプラスセクションに行き、ログインせずに推奨される文法クイズを完了する」というユーザープロンプトがあります。実際、その過程で広告が表示された場合、OpenAIのカーソル...申し訳ありません、OpenAIのオペレーターは、それを閉じる必要があることを知っており、最終的な答えを返してきます。ウェブブラウザをナビゲートする方法を知っており、OpenAIがこれを非常にうまく実装したことは間違いありません。最新の最高水準のスコアを獲得したのも当然です。もちろん、OpenAIですから、非常にうまく実装したはずです。
次に興味深いのは、Claude 3.5 Sonnetと文字通り比較していることです。成功率を見ることができ、モデルの信頼性の面で優れていると主張しています。OpenAI CUAができることは他にもたくさんあります。安全性のベンチマークについても言及していますが、
この動画で伝えたいことは、前述したように、もしあなたの仕事が単にボタンをクリックするだけなら...私は大手テクノロジー企業で多くの人を見てきました。大手テクノロジー企業で働いた経験がありますが、もしあなたの仕事が朝にログインして、メインフレームの仕事やSQLの仕事、ETLの仕事など、ボタンをクリックするだけで、ソフトウェアエンジニアではなく、おそらくDBA(データベース管理者)のような仕事なら、この時点であなたができることの50%を解決できることを考え始める必要があります。
明日すぐに解雇されることはありませんが、ランダムな企業がOpenAIを信頼した場合、あなたの仕事が半分に減る可能性は高いです。企業にすぐには導入されません。会社を運営している人で、OpenAIにコンピューターアクセスを与えるほど愚かな人はいません。そうはならないでしょう。しかし、未来が見えています。あなたの仕事を50%削減する未来がほぼここまで来ています。
それが一つ。二つ目は、私自身もOpenAIにすべてのアクセスを与えることには自信がありません。仮想ブラウザや仮想環境内でこれを実行したくない場合は、CUA(コンピューター使用エージェント)へのアクセスを必要としないオープンソースのソリューションがあります。
これはBrowser Useと呼ばれ、MITライセンスのオープンソースライブラリです。「ウェブサイトをエージェントがアクセスできるようにする」というものです。必要なのは「pip install browser-use」だけです。Y Combinatorが支援する会社で、Browser UseのWebエージェントは89%の精度を持っています。OpenAIのページを見ると、Browser UseのWebブラウジングエージェントは87%で、これは既に89%の精度があります。
OpenAIよりもこの分野で優れた成果を上げている企業があり、この分野はますます興味深くなっていくでしょう。強力なブラウザ自動化について、自動化自体が巨大な市場であることに気づいていないかもしれません。
この会社をご存知の方がどれくらいいるかわかりませんが、以前にこの会社について話したかもしれません。UiPath(UIパス)の株を見ると、驚くべきことに今日は株価が上がっています。過去5年間で株価は81%下落しています。時価総額は75.4億ドルの企業です。これは、OpenAIのオペレーターが最終的に打ち負かそうとしている、あるいはおそらくチケット予約のためだけに人々が座っているリモートコールセンターのような巨大な市場です。
多くの企業がこれを行っていますが、独自のキーを追加してカスタマイズできるオープンソリューションを使用したい場合は、Browser Useを強くお勧めします。Browser Useのチュートリアルを作成してほしい場合は、コメント欄でお知らせください。基本的には単純なはずですが、この時点でコンピューターを使用させるエージェントは監視する必要があります。混乱を招かないようにしたいですからね。
しかし、事実として、より多くの自動化を可能にする形で未来がやってきます。これは自分のスタートアップを立ち上げるのにも非常に良い分野です。例えば、製品テストの自動化ができます。ソフトウェア開発ライフサイクルにおいて重要な部分である製品テストをどれくらいの方が知っているかわかりませんが、製品テスト全体を自動化することができます。
マウスとキーボードのコントロールを取れるようになると、他にもたくさんのことができます。Logitechの株価が下がるかどうかはわかりませんが、最終的にはたくさんのことができます。これは興味深い分野です。この分野で何か製品を作ろうとしている場合は教えてください。それについて知りたいと思います。とにかく、これがOpenAIのオペレーターですが、Browser UseやAnthropicのComputer Useのコピーキャットに過ぎません。アクセスできなくても、大きく損をしているわけではありません。また別の動画でお会いしましょう。Happy promoting!