見出し画像

自分だけのChatGPTオペレーターを作ろう - 方法を解説

8,122 文字

私のアカウントで本を自動購入してしまいました。これは驚くべきことです。AIエージェントがウェブ上でアクションを起こせるなんて。これこそが未来です。私の名前はデビッド・アンドレです。ここでは、あなたのマシン上でローカルに独自のChatGPTオペレーターを構築する方法をお伝えします。
OpenAIは初のAIエージェントであるオペレーターをリリースしました。これはウェブを閲覧し、あなたに代わってアクションを実行できます。しかし、ほとんどの人はオペレーターよりも優れたオープンソースのフレームワークがあることを知りません。しかも月額200ドルを支払う必要もないのです。
このビデオでは、完全な初心者でも、ステップバイステップで独自のローカルオペレーターのセットアップ方法をお見せします。
では、どうしてこれが可能なのでしょうか?OpenAIのオペレーターの月額200ドルの代替となる無料版が存在するのはなぜでしょう?それは「browser use」というオープンソースフレームワークのおかげです。通常、オープンソースの代替品はAI企業の製品に遅れを取りますが、2025年は違います。まずDeepSeek R1がo1を完全に圧倒し、そして今度はbrowser useがChatGPTオペレーターを圧倒しているのです。
OpenAIの問題について触れましょう。一見、ChatGPTオペレーターは素晴らしいAIエージェントに見えます。ブラウザを制御して、フライトや食料品の予約、その他の予約ができます。しかし、月額200ドルのサブスクリプションの壁があり、しかも多くの国では利用できません。ヨーロッパでは数ヶ月は利用できないと言われています。また、あまりにも慎重すぎて、数ステップごとに確認を求めてきます。これは自律型AIエージェントのあるべき姿ではありません。
一方、browser useはオープンソースなので、好きなモデルを使って無料でコンピュータ上で実行できます。
おそらく一部の人は「デビッド、それは公平じゃない。ChatGPTプロにはOpenAI o1への無制限アクセスなど他の機能もあるじゃないか。それなら月200ドルの価値があるかもしれない」と考えるでしょう。しかし、DeepSeek R1は多くのベンチマークでo1を打ち負かしました。さらに、OpenAIでは見ることができない推論トークンを見ることができます。
そのため、私はvectlにDeepSeek R1を追加することにしました。これをタスクで使用できます。「anthropic APIのセットアップ方法をステップバイステップで教えて」というような場合です。ChatGPTとは異なり、モデル内部の推論トークンを実際に見ることができます。DeepSeek R1への無制限アクセスやvectlが提供する他の機能にアクセスしたい場合は、vectl.aiにアクセスして試してみてください。
さて、browser useオペレーターの構築に取り掛かりましょう。まず、cursorの中に空のプロジェクトを作成する必要があります。cursorやWindServ、VS Codeを開いてください。使用するものは何でも構いません。「open project」をクリックして、空のフォルダを作成します。
次に、ターミナルを開く必要があります。上部の「terminal」をクリックするか、Command + Jを押して新しいターミナルを開きます。これでマークを付けることができます。
次に、GitHubリポジトリをクローンします。このリンクは説明欄にも記載します。ここでやるべきことは、「code」に行ってこのリンクをコピーするだけです。「Copy URL to clipboard」をクリックし、cursorに戻って「git clone」と入力し、Control + VまたはCommand + VでURLを貼り付けます。Enterを押すと、GitHubリポジトリ全体が自動的にプロジェクトにクローンされます。
ファイルを開くと、すべてがここにあることがわかります。これがオープンソースプロジェクトの素晴らしさです。ステップ3が完了しました。
次のステップは、web-UIフォルダに移動することです。「clear」と入力し、「cd」と入力してからこのフォルダに移動します。「web-ui」と入力します。これで表示されるはずです。
次に要件をインストールする必要があります。まず、condaの環境をアクティブにします。技術的にはcondaは必要ありませんが、異なるPython環境を分離するのに良いです。condaの使い方がわからない場合は、deepsが最適です。
MacBookでcondaをセットアップする方法について。これがdeepsに最適な理由は、推論モデルだからです。vectは本当に良い製品になってきています。私の製品なので言うべきではないかもしれませんが、deepsモードの追加により、とんでもなく良くなってきています。
さて、話を戻しましょう。「conda activate test」を実行します。これは私のテスト環境です。これでテスト環境にいることがわかります。「clear」を実行し、cursorの機能であるCommand + Kを使用して、「install reqs」と入力します。requirements.txtファイルを認識し、正しくインストールするのに十分なはずです。
そうですね、実行しましょう。必要なパッケージがすべてインストールされます。「clear」を実行します。ステップ5が完了です。
見ての通り、プログラマーでなくてもこれができます。ローカルホストで起動しましょう。このコマンドを実行する必要があります。説明欄に記載します。これはIPではなく、単なるローカルホストとポートです。心配しないでください、誰もこれでハッキングはできません。
これをコピーして同じターミナルに貼り付け、Enterを押します。実行には数秒かかり、このリンクが表示されます。Command + クリックでブラウザが開き、そこにbrowser useが表示されます。ここから魔法が始まります。ステップ6を完了としましょう。
ステップ7です。私たちは順調に進んでいます。これがエージェントの設定です。使用したいエージェントのタイプを選択できます。組織またはカスタムのいずれかです。カスタムを使用しましょう。エージェントが実行できるステップの最大数は1から200までです。50くらいが適当だと思います。ほとんどのタスクにとって安全な数値です。
ステップごとのアクションの最大数は10のままにしておきます。ビジョンの有効化とツール呼び出しの有効化はオンのままにしておきたいですが、ここで非常に重要な設定があります。それはLLMです。使用するモデルを選択する必要があり、多くの選択肢があります。Anthropic、OpenAI、DeepSeekなどです。
ちなみに、ローカルでDeepSeekモデルを実行する方法についての動画を作る予定です。DeepSeekは6つの小さな蒸留モデルもリリースしており、確実にコンピュータで、数日後にはスマートフォンでも実行できます。その方法についての動画を作る予定なので、見逃さないようにチャンネル登録をお願いします。
このビデオではAnthropicを使用します。最高のモデルを使用したいので、この場合は0620のProposerではなく、新しいSonet 1022を使用します。これは古いバージョンです。新しいものの方がはるかに優れています。これを削除して1022と入力します。
temperatureは1は使用したくありません。0.1くらいにしたいです。これは遥かにランダム性が低くなります。そしてbase URLとAPIキーがあります。もちろん、base URLは使用するLLMプロバイダーによって異なります。Anthropicの場合は「api.anthropic.com」です。
anyコンソールに移動しますが、ここではCLAで使用しているのと同じアカウントでログインする必要があります。上部の「settings」をクリックし、左側の「API keys」をクリックします。ここで「create key」をクリックし、ワークスペースを選択します。デフォルトでも構いません。「browser use ad」と名付けましょう。
これをコピーします。APIキーは絶対に共有しないでください。ビデオをアップロードする前に私のものは削除します。パスワードとして扱ってください。browser use web UIに戻り、ここに貼り付けます。
次に、ブラウザ設定をクリックします。ここでは多くの設定ができます。例えば、既存のブラウザを使用するか、タスク間でブラウザを開いたままにするかなどです。しかし、最も重要なタブは「run agent」です。
ここでは、AIエージェントにウェブ上で実行してほしいタスクの明確な説明を与えることができます。デフォルトでは「google.comに行き、OpenAIと入力して結果をクリックする」という超シンプルなものです。
しかし、私はもっと複雑なタスクを与えようと思います。「amazon.aeに行き、レイ・カーツワイルの『The Singularity is Nearer』という本を購入する。本の購入について完全な許可を与えます」。
ChatGPTオペレーターで示された例よりも、これは更に高度です。購入を完了するためにすべてを行ってほしいのです。また、2ステップごとに「これをしてもいいですか?」というような煩わしい確認はありません。
追加情報として、「最もレビューの多い英語版を選んでください」と付け加えます。それでは「run agent」を実行して、魔法を始めましょう。
エラーが出たようです。ターミナルにエラーが表示されています。cursorを使ってデバッグしてみましょう。cursor composerを開いて、ターミナル出力全体を入力します。
これは私のスタートアップvectalの構築方法でもあります。過去3ヶ月半、私はvectalを構築してきましたが、それは完全に英語を話し、英語を書いて、cursor CLA v0やこれらのAIツールを使って構築してきました。
これは100人以上の有料顧客を持つ完全にデプロイされたスタートアップで、AIツールで構築されています。だから、プログラマーでなくてもできると言っているのは、単なる建前ではありません。私がやったのです。これは今すぐ使える完全なDEOプロダクトです。正直に言って、今はかなり良い製品になっています。
これが私のcursorを使ったデバッグ方法です。エラーがあります。ここに入力して、それが何であり、どのように修正できるかを説明してもらいます。エージェントcursorに切り替えます。通常のcomposerよりもはるかに優れています。
実行可能ファイルがplayrightに存在しないようです。このステップを忘れていたようです。GitHubリポジトリの重要なステップです。playrightをインストールする必要があります。
実際、今すぐできます。いいえ、問題は conda環境がアクティブになっていなかったことです。新しいターミナルを開いて、「conda activate test」を実行します。同じconda環境で「clear」を実行し、playrightのインストールを貼り付けます。
これでplayrightがインストールされます。これはbrowser useを動かすエンジンです。これによってAIエージェントがウェブサイトの異なる要素と対話できるのです。ボタン、画像、テキストの周りのバウンディングボックスを見ることができ、何をするか決定できます。
インストールが完了しました。「clear」を実行し、ポートを再起動する必要があります。戻って、ステップ7は既に完了しているので、チェックを外します。このコマンドをコピーして再実行する必要があります。vectに保存しておきます。「clear」を実行して再実行します。
もう一度開きましょう。設定が消えてしまいましたので、すぐに設定し直します。これが実行されているので、もう一度実行しましょう。同じプロンプト、同じ情報で「run agent」を実行します。
新しいウィンドウが開きました。素晴らしい。連続5回の失敗が止まりました。動いています。これは良いことです。情報が見つかりません。何が起きているのでしょうか?cursorでデバッグしましょう。
composerに追加します。正直に言って、これはカットできると思いますが、最初から上手くいくわけではないことを実際にお見せする方が本物だと思います。実際、ほとんどの場合、予期せぬエラーに遭遇します。そして、私がそれらをどのように解決するかを見ることができます。
落胆したり、個人的に受け止めたりせず、AIツールを活用して解決するだけです。別のエラーが出ました。これが何なのか、どう修正できるのか説明してください。ここでは実際に新しいSonet 3.5を使用しています。vectlのデフォルトと同じモデルです。
実際の問題を見てみましょう。アプリがOpenAIのAPIを使用しようとしています。なぜでしょう?もう一度手動で再起動します。今回はOpenAIを試してみましょう。Anthropicのほうがかなり不安定なようです。
正直なところ、DeepSeekと比べてもAnthropicのAPIは不安定です。DeepSeekは99.9%のアップタイムを持っていますが、Anthropicは99%程度です。99%は良く聞こえるかもしれませんが、1%の時間はオフラインか深刻に遅くなっています。
では、代わりにOpenAIを使用してみましょう。platform.openai.comのAPIキーにアクセスし、ChatGPTと同じアカウントでログインします。左側のAPIキーをクリックし、新しいシークレットキーを作成します。「browser use」と名付けます。
繰り返しますが、これらは誰とも共有しないでください。ビデオを公開する前に私のものは削除します。APIキーを入力します。ブラウザ設定も良さそうです。「run agent」を実行してみましょう。
もう一度試してみましょう。今度は設定が異なります。AnthropicではなくOpenAIです。これで問題が解決することを願っています。指を crossed して...「run agent」を実行します。
ブラウザが開きました。止まらないことを願います。さあ、来ました。私は触っていません。これが私の手です。Amazonが開きました。素晴らしい。
問題は、ここにログインしていないことです。レイ・クルツワイルの『The Singularity is Nearer』...さあ、検索してください。これはクレイジーです。AIエージェントがAmazonで商品を買おうとしています。
最もレビューの多いものを...今回は指定しませんでしたが、どれを選ぶか見てみましょう。最初のオプションを選びました。良い選択です。英語版であることを確認します。はい、英語です。評価も良好です。
さあ、「今すぐ購入」か「カートに追加」か、どちらを選ぶでしょうか。「今すぐ購入」を選びました。素晴らしい。
ここで止めなければなりません。このブラウザにログインしていないからです。しかし、もしブラウザ設定で「既存のブラウザを使用」を選択すれば...これは良いかもしれません。私はここで明らかにAmazonアカウントにログインしているので、これを試してみましょう。
これは既に素晴らしいですよね。誤解しないでください。AIエージェントがあなたのコンピュータを制御する...これが未来です。まだ2025年の1月ですよ。今年は信じられないほどの年になるでしょう。
本当に集中して、vectlやcursor、browser useのようなツールを活用すれば、誰よりも先を行くことができます。もう笑い事ではありません。
では、「既存のブラウザを使用」を有効にして、もう一度試してみましょう。ここで新しいウィンドウが開くことを願います。ログインすることもできますが...サインインしていません。停止しましょう。
かなりリスクのあることをしようと思います。ログイン情報を提供します。ユーザー名、パスワード...正直に言って、これは皆さんのためにやっています。このAIエージェントが何ができるかをお見せしたいからです。
amazon.comです。さあ、今度はログインしています。完了できるはずです。ログイン情報を提供する際は注意が必要です。明らかにリスクがあります。間違った商品を購入した場合は、私が費用を負担しなければなりませんが、実験のためにそれを厭いません。
何が起きているんでしょう?実際に邪魔をしてしまったようです。より多くのコンテキストを追加します。「ログインが必要な場合は、以下のログイン情報を使用してください」そして「本の購入について完全な許可を与えます」とも追加します。
もう一度やってみましょう。さあ、browser use、信じています。
Amazonです。私は触っていません。これはAIです。AIが私のコンピュータを制御しているのです。未来に生きているんです。
検索ボックスを見つけて...さあ、2番、できましたね。そこにあります。すべてをバウンディングボックスに入れて、次のアクションを実行する様子が美しいです。
22番をクリックしてください。まず22をクリックです。最初の本で問題ありません。そうです、その通りです。
「今すぐ購入」をクリックしてください。「今すぐ購入」をクリックです。また、予想よりもかなり速いですね。私が商品を購入するほど速くはありませんが、かなり良い感じです。
ログインです。ログイン情報を提供しました。さあ、二要素認証が必要です。パスワード...さあ、頑張って。私のアカウントにログインしています。できました。
「今すぐ支払う」をクリックしてください。「今すぶ支払う」をクリックです。そして...できました。自律的に本を購入しました。私のアカウントで本を購入したのです。
URLにアクセスし、本を購入するまで、すべてを行いました。2分もかかりませんでした。タスクは正常に完了しました。SMSの通知で確認してみましょう。ありました。『The Singularity is Nearer』の注文が確定しました。
本当にシンギュラリティは近づいています。これはクレイジーです。私たちは文字通り、ウェブ上でアクションを起こすことができるAIエージェントを手に入れました。これが未来です。
そして、vectl.aiにアクセスして試してみることをお勧めします。Deep useの無制限アクセスと共に、これは最高の取引の一つです。もちろん、メモを追加したり、タスクを追加したりすることもできます。すべてのアクティブなタスクを見ることができ、ユーザーの設定や目標を見て、非常に関連性が高く実行可能な提案をしてくれます。
エージェントを使ってタスクを書き直したり、明日に移動したり、タスクを完了したりすることもできます。vectl.aiにアクセスして試してみてください。vectlの有料メンバーは全員、Deep R1の無制限使用が可能です。トークンのコストがいくらになろうと、私は気にしません。無制限です。
vectl.aiにアクセスして試してみてください。ご視聴ありがとうございました。素晴らしく生産的な一週間をお過ごしください。また会いましょう。

いいなと思ったら応援しよう!