![見出し画像](https://assets.st-note.com/production/uploads/images/171496429/rectangle_large_type_2_57c48db1cf96115b612b47ccdcb30cbb.jpeg?width=1200)
アクセス不可?! オープンソースAIオペレーターを自作しよう!
4,469 文字
OpenAI オペレーターを使うために200ドルものお金を払ってGPT-4 Proにアクセスする必要はありません。今日は、独自のオープンソースのOpenAIオペレーターを構築する方法をお見せしましょう。これはOpenAIのものではありませんが、OpenAIのAPIキーを使用して利用することができます。これはBrowser Baseという会社によるもので、彼らはすでにウェブエージェントを持っていますが、OpenAIオペレーターとまったく同じようなものを作成できる非常に小規模なプロジェクトをまとめています。
まず、その動作デモをお見せし、その後GitHubのレポジトリを確認し、そしてこれを動かしているテクノロジーについて見ていきましょう。open.operator.comにアクセスして質問を投げかけてみましょう。例えば、「SECとJSKの最新のスコアは?」という質問をしてみました。これは南アフリカで行われているクリケットの試合で、数時間前に終了したばかりです。Google検索やその他の検索を使用しない限り、答えを出すことはできません。
この質問を投げかけると、まずgoogle.comというウェブサイトに移動する必要があることを理解し、次のステップでは特定のページでスコアを探そうとします。そしてすぐにスコアを見つけ、Sunrisers Eastern Capeのスコアとジャッカル・スーパーキングスのスコアを教えてくれました。タスクは正常に完了し、エージェントがタスクを完了したと報告しました。
これはまさにOpenAIオペレーターが行うことと同じですが、仮想環境内で何を保存し、何を実行しているのかについてのコントロールが少ない状態で行われます。これはオープンソースプロジェクトによって動作しています。ブラウザエージェント自体はオープンソースで、ブラウザエージェントを動かす基盤となるフレームワークもオープンソースですが、GPT-4oや他のモデルのAPIキーは必要です。
これは2つの異なるテクノロジーのおかげで実現しています。ページを更新すると、これはOpenAIオペレーターのオープンソース版で、StagehandとBrowser Baseという2つのものによって動作していることがわかります。Browser Baseをご存じの方は、これがウェブ自動化エージェントのようなものだとわかるでしょう。Stagehandは、同じことを実現するためのフレームワークです。
StagehandはAIウェブブラウジングフレームワークで、必要なのはnpx create browser appを実行するだけです。これはブラウザ自動化を可能にします。Playwrightのようなものですが、次のレベルに進化しています。Playwrightを使用したことがある方なら、これはブラウザのためのSeleniumのようなもので、ブラウザ自動化を行います。ここをクリックしたり、操作を行ったりするものですが、これはPlaywrightを自然言語で使いたいことに合わせて拡張したものです。
例えば、特定のウェブサイトに移動するようにタスクを作成することができます。誰かが何かを尋ねた場合、タスクを作成してgoogle.comに移動するように指示することができ、そうすれば実際にgoogle.comに移動します。これが一つ目で、二つ目は明らかに彼ら独自のフレームワークであるBrowser Baseです。
Browser Baseがどのように機能するかを見ることができます。これはAIのためのウェブブラウザで、作成してヘッドレスモードで実行するなど、多くの異なることができます。彼らは、これら2つを組み合わせてGitHubリポジトリにまとめました。現在、ライセンスは利用できないので、商用目的で使用する場合は注意が必要です。
非常にシンプルで、必要なのは2つのキーだけです。1つはOpenAIのキーで、OpenAIのキーを使用する必要があります。2つ目は、Browser BaseのAPIキーで、これは彼らのウェブサイトから取得する必要があります。これらのキー、OpenAIのAPIキー、Browser BaseのAPIキー、Browser BaseのプロジェクトIDがあれば、ローカルコンピュータで実行できます。
ローカルコンピュータで実行する場合、仮想環境内で実行されるOpenAIオペレーターとは異なり、ローカルコンピュータで実行されますが、データはBrowser BaseやOpenAIに送信されます。機密性の高い作業を行う場合は、現時点では非常に小規模なプロジェクトなので、避けた方がよいでしょう。趣味のプロジェクトとして使用する場合は、どんどん進めてください。
動作の仕組みは非常にシンプルです。エージェントがサインインをクリックし、特定の操作を行います。裏側では、OpenAIが行っているのと同じことを行っています。スクリーンショットを撮り、ページ上の内容を理解し、それに基づいて行動を決定し、実行します。この場合はブラウザエージェントなので、OpenAIが行っているピクセルベースの単なる写真撮影と理解よりも、より多くのことを理解します。ここでは、Stagehandがこの場合、若干より良い自動化を持っています。
いくつかのテクノロジーがこれを動かしています。Browser Base、Stagehand、Next.js、OpenAIなどが見られますが、最も重要なのは、これが単なるリポジトリだということです。ローカルコンピュータや自分のサーバーにデプロイしたい場合は、簡単にできます。
実際のデモをお見せしましょう。例えば、「Metaの現在の株価は?」と質問してみましょう。実行をクリックすると、目標は現在の株価を見つけることだとわかります。ブラウザが開いて、OpenAIと同じように制御することもできます。いつでも制御を取ることができます。
Googleに移動したのは、ステップ1がGoogleに行くことだからです。その理由は、Googleが包括的な検索エンジンで、様々な信頼できる金融ニュースソースや株式市場プラットフォームからMetaの最新の株価情報を提供できるからです。
ご覧の通り、超高速というわけではなく、それなりの時間がかかります。次のステップはクエリを入力することです。おそらく検索バーに「Meta stock price」と入力するでしょう。私は何もしていませんが、すでにMetaと入力し始めているのが見えます。「Meta stock price」と入力し、ほぼ完了しました。エンターを押すか、マウスで検索ボタンをクリックする必要があります。
現在の株価を見つけるために、Googleで検索クエリを実行する必要があります。検索バーが表示されているので、スクリーンショットを撮り、必要な情報を取得するための次の論理的なステップがクエリであることを理解しています。
Google Singaporeに移動したようです。おそらく彼らが提供したIPアドレスの関係でしょう。まだ処理中です。マウスオプションとタッチスクリーンオプションがありますが、私は何もしていません。エンターを押しました。
通常、Googleはホームページに株価を表示しますが、今回は表示されていません。上下にスクロールしているのが見えます。おそらく2ページ目に行くかもしれません。いいえ、私たちがするように上下にスクロールしているだけです。Yahoo Financeをクリックするかもしれません。現時点で脳が凍結したような状態です。もちろん、実際の脳はありませんが、GPUが凍結したような状態です。
エージェントは目的が達成されるまで休むことはありません。検索結果ページは表示されていますが、Metaの現在の株価はすぐには見えません。そのため、次のステップは、金融ウェブサイトプラットフォームや株式市場プラットフォームなど、現在の株価を表示する可能性が高い関連リンクをクリックすることです。そして正しくYahoo Financeをクリックすることができました。
クリックするとレートが表示されます。スクリーンショットを撮ると、Metaの株価が646ドルであることがわかるはずで、タスクを完了状態にする必要があります。
タスクは完了しましたが、前のセッションが完了し、ブラウザのdiffツールエンジンが切断されたため、タスクをやり直す必要がありました。しかし、646ドル、9ドル(1.52%)の変動があることを正常に取得できました。Yahoo FinanceページのスクリーンショットにはっきりとMetaの株価が表示されており、現在の株価を取得するという目標を達成しています。
かなり効果的で、エージェントを待たずに自分で制御することもできます。例えば、Metaの現在の株価を尋ねた場合、Googleに移動しますが、実際に何かを入力するのを待つ必要はありません。プロセスを加速することができ、入力することもできます。毎回特定の段階で制御を取り、離すことができるからです。
ここに行って「Meta stock price」と入力し、クリックすれば、そこから最新のスクリーンショットを取得します。ブラウザで現在いる場所からステップを整理するのに少し時間がかかるかもしれませんが、制御を取って実行する能力があることは、まさにOpenAIが約束したことと同じです。唯一の違いは、これが人間がループに入る、または人間が拡張した機械のウェブエージェントのようなものだということです。
OpenAIが何かを立ち上げてから1日以内にこのようなものが実現したことにとても興奮しています。200ドルを支払う必要もなく、アメリカにいる必要もなく、どこにいても全てを行うことができます。YouTubeの説明欄にリンクを載せておきますので、試してみた感想を教えてください。まずは彼らのウェブサイトに行って試してみて、それから複製したい場合はレポジトリをダウンロードして実行してください。必要なのは、彼らのウェブサイトとOpenAIのウェブサイトに登録することだけです。
Browser Baseのようなウェブエージェントを使用する必要のない、純粋なビジョン言語モデルベースのオープンソースプロジェクトをまだ待ち望んでいます。おそらく数日以内にチュートリアルを公開できると思いますが、現時点ではこれはとても興奮させられるもので、非常に効率的だと思います。これがどれほど本番環境に適しているかはわかりませんが、この場合、多くの手間をかけずに使用できるはずです。
オペレーターのこのようなオープンソース実装や、他のツールやテクノロジーについて、皆さんがどう思うか教えてください。また別の動画でお会いしましょう。ハッピープロンプティング!