見出し画像

コンピューター使用 - Anthropicの画期的なAIツール | インストール方法 | ライブテスト

8,811 文字

はい、今から2024年の時価総額最大の企業を検索してるとこですわ。検索して上位5社が出てきましたね。続けて実行中で、Officeを開こうとしてます。まだ実行中やね。
マウスの座標を移動させてクリックしてますわ。めっちゃ興奮してますわ。ちなみに私は何もしてませんよ。裏で何か細工してるわけやないです。これは100%コンピューター使用機能のAnthropicが処理してるんです。
Anthropicがコンピューター使用をリリースしました。AIエージェントが人間のように、画面を見て、マウスを使って、キーボードを使って、自律的にオンラインで作業する次のステップです。今日彼らはそれを可能にするAPIをリリースしました。
このビデオでは、実際に何が提供されているのか、自分のコンピューターへのインストール方法、私の初期テストの結果と何ができるのかをお見せします。Anthropicが示した他のユースケースも見ていきましょう。
まだ実験的で初期段階やけど、これが次の大きな波です。エージェントがインターネットを閲覧し、あなたに代わってタスクを完了する - それが始まろうとしています。興奮してる人は「いいね」ボタンを押してください。さあ、始めましょう。
コンピューター使用の導入、新しいClaude 3.5 SonnetとClaude 3.5 Haikuです。Claude 3.5 Sonnetのアップグレードと新モデルのClaude 3.5 Haikuを発表しています。Claude 3.5 Sonnetは前バージョンから全体的に改善されており、特にコーディングの分野では既にトップだった性能がさらに向上しています。
でも多くの人にとってもっと興味深いのは、画期的な新機能「コンピューター使用」がパブリックベータとして今日からAPIで利用可能になったことです。開発者は画面を見て、カーソルを動かし、ボタンをクリックし、テキストを入力するという人間のような方法でClaudeにコンピューターを操作させることができます。
Claude 3.5 Sonnetは、パブリックベータでコンピューター使用を提供する最初のフロンティアAIモデルです。この段階ではまだ実験的で時に扱いにくく、エラーも起こりやすいですが、開発者からのフィードバックを得るために早期リリースを決定し、この機能は急速に改善されると期待されています。
既にいくつかの企業がコンピューター使用の可能性を探り始めています。DevonのSona Conva、Cognition Labs、DoorDash、Replit、The Browser Companyなどです。数十から時には数百のステップを必要とするタスクを実行しています。
ここで見られるように、新しいClaude 3.5 Sonnetは非常に優秀です。緑でハイライトされているのがトップスコアを獲得した部分です。大学院レベルの推論では、2位が以前のClaude 3.5 Sonnetです。既にトップだったのがさらに性能を絞り出して、首位の差を広げました。
学部レベルの知識ではGemini 1.5 Proを上回って1位を獲得し、コードでも特に優れた成績を収めています。以前のモデルが既にトップで、今回さらに少し改善されました。
エージェンティックコーディングのSWE Bench Verifiedでは49%を記録していますが、他のモデルのスコアは出ていません。このベンチマークについては詳しくないので調べる必要がありますが、誰もスコアを出していないので確かにトップですね。エージェンティックコーディングやツール使用などで曲線の先を行っており、コーディングでは既に非常に優秀です。Anthropicは確実に大きなことを成し遂げており、素晴らしい結果を出しています。
面白いのは、コーディングのデモ中に、ある時点でイエローストーン国立公園を検索し始め、コーディングのデモを中断してイエローストーン国立公園の写真を閲覧し始めたことです。ADHDに苦しむ私としては、Claudeよ、大丈夫だよ、わかるよ、誰にでもあることだと言いたいです。現在市場で最も進んだAIモデルの1つが同じ問題を抱えているという事実は、私をかなり安心させてくれます。
ユースケースとしては、これがClaudeのコンピューター使用による運用の自動化です。
サム: 私はAnthropicの研究者の一人です。コンピューター使用は私たちが長らく重要になると考えていた機能で、今日はその初期バージョンと、有用だと考えられる代表的な例について説明します。
このデモでは架空の例として、Ant Equipment Companyという顧客からベンダー申請フォームの記入依頼があったとします。フォームに必要なデータは私のコンピューター上の様々な場所に散らばっています。
Claudeにスプレッドシートを確認させ、Ant Equipmentが存在しない場合はCRMに移動して追加情報を探させます。データを取得したら、Claudeがフォームに記入してベンダーフォームに情報を転送します。
最初にClaudeは画面のスクリーンショットを撮り、Ant Equipment Companyがスプレッドシートにないことを確認します。そこでCRMに切り替えて対象の企業を検索します。検索にヒットしたので、Claudeはページをスクロールしてフォームに必要な情報を探します。
その後、Claudeは私の操作なしで自律的に情報の転送を開始し、必要な情報を全て入力してフォームを送信します。この例は多くの人が行わなければならない単調な作業を代表するものです。これはAPIで利用可能で、皆さんに試していただけることを楽しみにしています。今後数ヶ月でさらに改善されることが期待できます。
プージャ: 私もAnthropicの研究者です。次はタスクのオーケストレーションのためのコンピューター使用をご紹介します。来週サンフランシスコに友人が来るので、観光スポットに連れて行きたいと思います。ゴールデンゲートブリッジを望む日の出ハイキングは古くならないと思うので、Claudeに手配を依頼してみましょう。
Claudeに日の出スポットを探してもらい、タイミングや手配を計画し、出発時間を忘れないようにカレンダーに予定を入れてもらいます。Chromeを開いてGoogleで検索し、良い場所が見つかったようです。
自分の場所からハイキング場所までの距離を確認するためにマップを開いて検索しています。次に明日の日の出時刻を検索し、カレンダーに予定を追加して詳細を入力しています。Claudeが完了しました。
これは単純な例ですが、人々が作り出すものから学ぶために、コンピューター使用を早期に共有しています。
アレックス: 私はAnthropicの開発者リレーションズのリーダーです。今日はコンピューター使用でのコーディングタスクをお見せします。ウェブサイトのコーディングタスクをClaudeに実行させますが、実際に私のラップトップを操作させます。
まず、Claudeが変更を加えるウェブサイトが必要なので、Chrome browserでClaud.aiに移動し、90年代風の個人ホームページを作成するようClaudeに依頼しましょう。Chromeを開いてClaud.aiを検索し、個人ホームページ作成の指示を入力します。
Claud.aiがコードを返し、右側のアーティファクトにきれいにレンダリングされました。良い感じですが、自分のコンピューターでローカルにいくつか変更を加えたいと思います。Claudeにファイルをダウンロードさせ、VS Codeで開いてもらいましょう。
Claudeは「Save to file」ボタンをクリックし、VS Codeを開き、ダウンロードフォルダ内のファイルを見つけて開きます。完璧です。ファイルが開いたので、ブラウザで実際にファイルを表示できるようにサーバーを起動するようClaudeに依頼しましょう。
ClaudeはVS Codeのターミナルを開いてサーバーの起動を試みますが、エラーが発生します。マシンにPythonがインストールされていませんでしたが、Claudeはターミナルの出力を見てこれに気付き、マシンにインストールされているPython3で再試行します。うまくいきました。サーバーが起動しました。
ローカルサーバーが起動したので、ブラウザでウェブサイトを手動で確認できます。良さそうですが、ターミナルにエラーが出ており、上部に欠落したファイルアイコンもあります。Claudeにこのエラーを特定して修正してもらいましょう。
Claudeはターミナルの出力を視覚的に読み取り、VS Codeで検索・置換ツールを開いてエラーを投げている行を見つけます。この場合、エラーを完全に削除するようClaudeに依頼します。Claudeは行を削除し、ファイルを保存して自動的にウェブサイトを再実行します。
エラーが解消されたので、最後にウェブサイトを確認すると、ファイルアイコンが消えてエラーも無くなっています。完璧です。これがコンピューター使用とClaudeによるコーディングです。今回は複数の指示が必要でしたが、将来的にはClaudeがこのようなタスクを一貫して実行できるようになると想像できます。
以前にこういったシステムをテストした時、私が最も興奮して実装を待ち望んでいた機能の1つがこれです。例えばClaude OpusやClaude familyの他のモデルは、アーティファクトウィンドウでのコーディングが非常に優れています。対話できるウィンドウでコードを作成できますが、それをダウンロードしてコンピューターで実行したり変更したりする場合は、手動で行う必要がありました。
つまり、これらのモデルは例えばスネークゲームを生成することはできても、そのゲームを実行して全てが正常に動作しているか確認することはできませんでした。コードを見て多少のトラブルシューティングはできますが、実際の出力を確認して何が問題で何が機能しているのか見ることはできませんでした。
これは最後にそのギャップを埋めるものです。初日から100%完璧とは期待していませんし、エラーや間違いもあるでしょう。しかしAIの他の機能と同様に、継続的に改善され、より良くなっていくでしょう。
大規模言語モデルがオペレーティングシステムになる段階に近づきました。もはやボタンをクリックしたり操作したりする必要はなく、Claudeに指示するだけです。面白いのは、実際にClaud.aiのウェブサイトに行って自分自身と対話し、「このコードを書いてください」と依頼し、そのコードをコンピューター使用が取り出してVS Code(開発プラットフォーム/開発環境のような)に入れ、ブラウザでローカルに表示するためにローカルサーバーを起動するターミナルでコマンドを実行できたことです。
これは大きな進展です。なぜなら彼が言ったように、いずれはエンドツーエンドでこれができるようになるからです。また、この機能があれば実際の結果のトラブルシューティングも開始できます。例えばゲームを作る場合、実際のゲームを見て「これが機能していない、あれが機能していない」と確認し、コードに戻ってそれを機能させるように変更を加えることができます。
初日は完璧でなくても、時間とともに改善が続けば、これは大きな進展に見えます。これは最後のピースでした。ビジョンに加えて、コンピューターを使用する能力、コーディング、推論が全て組み合わさり、全てのピースが揃ったように見えます。
インストール方法を簡単に説明しましょう。まず、Dockerが必要です。使用しているターミナルを開いてください。私はVS Codeを使用しています。Docker versionと入力すると、Dockerがインストールされているか確認できます。インストールされていない場合は、Windows、Mac、Linuxなど用のDocker Desktopをインストールしてください。そのようなインターフェースが表示されるので、クリックしてダウンロードします。インストール後、コンピューターの再起動が必要かもしれません。
次にAnthropicのAPIキーが必要です。Anthropicにログインして、APIキーを取得してください。
次にこのコマンドを実行します。説明欄に記載しておきます。MacとWindowsで異なりますので、あなたのAnthropicのAPIキーをここに入れ替えてください。問題が発生した場合は、全体をコピーしてChatGPTやClaudeに貼り付けて、実行方法を尋ねてください。うまく説明してくれるはずです。
それができたら、実行するだけです。様々な変更を許可するかどうか尋ねられるので、許可を選択します。このようにDockerのローカルホストが起動し始めます。コンピューター使用のデモの準備ができました。Ctrlを押しながらこのローカルホストをクリックすると、このウィンドウが開きます。
ここで、やりたいことを入力し始めることができます。ご覧のように、こちらにPDFや電卓、スプレッドシートなどのツールがあります。
では、時価総額で上位5社の株式を見つけて、それらのティッカーシンボルと時価総額のスプレッドシートを作成するよう依頼してみましょう。
ここでもAnthropicのAPIキーを入力する必要がありましたが、今は実行されているようです。エラーが出ましたね。今度は動いているようです。「内部エラーコード」というエラーメッセージが表示され続けていますが。
さて、2024年の時価総額最大の企業を検索しています。上位5社を見つけ、実行を継続しています。Officeを開こうとしているようですね。まだ実行中です。マウスの座標を移動してクリックしました。
パソコンオタクにとっては非常にエキサイティングですが、確かに興奮します。何か動いているでしょうか?会社名、ティッカー、時価総額の列を作成しています。行を入力中で、AppleとIBMが入りました。今めちゃくちゃ興奮してます。
ちなみに、皆さんご覧の通り私は何も操作していません。裏で細工をしているわけではありません。これは100%コンピューター使用機能とAnthropicが処理しているのです。
かなり単純なタスクを与えました。時価総額上位5社の株式を調べて、スプレッドシートを作成し、会社名、ティッカーシンボル、時価総額の情報を入力するというものです。そしてそれを実行してくれました。
非常にシンプルで分かりやすいですが、このエージェントが完全に自律的に処理しました。Firefoxを使って調査を行い、Libre Office Calc(スプレッドシートソフト)を開いて、指示された通りに情報を入力しました。これで終了です。
次は、それらの株式の時価総額を比較するチャートを作成してみましょう。
これをExcelと呼びましょう。Google スプレッドシート、Excel、Libre Office Calcなど、いろいろありますからね。A、B、C、Dの列と1から6行を選択し、上に移動しています。Libre Officeをあまり使わないので何をクリックすべきか分かりませんが、適切なボタンを探しているようです。
insertを押してからchartを選択する必要があることを見つけ出しました。今は保存中です。賢いですね。作業を失うのは嫌ですもんね。よくやりました。予想外でしたが、非常に賢い判断です。何か問題が起きる可能性のある操作の前に保存して、データを失わないようにしたいということですね。
レート制限エラーが出てしまいましたね。これを頻繁に使う予定がある場合は、Anthropicに連絡してレート制限を引き上げてもらうことをお勧めします。1分あたりの使用制限があるんです。
興味深いことに「まずファイルを保存してからチャートを作成しましょう」と言っています。意図的にそうしたようですね。1分経ちましたので、もう一度試してみましょう。チャートを挿入するはずです。
viewをクリックして表示を小さくし、insert imageをクリックしました。それは違いますね。チャートの作成で少し苦戦しているようです。全てのウィンドウを閉じるよう指示してみましょう。
面白いですね。「全てのウィンドウを閉じました。チャート作成を別のアプローチで試してみますか?」と言ってきました。「もう一度チャンスをください」というような感じですね。いいですよ、小さなロボットさん、やってみてください。
「どうぞ」と返事をしましょう。再びLibre Officeを開いています。市場価値、株式のティッカーシンボルなどを再度入力し始めました。エラーコード500が出ました。全てのウィンドウを閉じるよう指示しましょう。
Libre Officeを閉じるのに問題があるようです。「作業を保存しますか?」というメッセージが出て、キャンセルをクリックしてしまうようです。
では、AIニュースのリストを探して要約してもらいましょう。どうなるか見てみましょう。
デスクトップのスクリーンショットを撮り、Firefoxを開くことを考えています。The Vergeに行って記事を探しているようですね。
判決が出ました。しばらく試してみた後、残りは切り除くことにしました。いくつかの技術的な問題があったためです。レート制限に引っかかったり、エラーメッセージが出たりしました。これは初日のリリースなので、多くの人がテストしているのでしょう。
また、何か正しく設定できていない可能性もあるので、トラブルシューティングが必要かもしれません。全てが落ち着いたら、この機能がどれだけうまく機能するか詳しく検証した動画を数日以内に公開する予定です。
今のところ非常に興味深く、かなり良好です。正しいものをクリックできているようです。以前試した他のエージェントではかなり不正確でした。例えばChromeプラグインはウェブをうまくナビゲートできましたが、キーボードとマウスを使用する場合はそれほど優れていませんでした。
このコンピューター使用で気づいたのは、正しいものをクリックする精度が高いことです。クリックすべきものを適切に識別できています。数時間試してみた限りでは、良好ですが洗練されていない実験的な段階という彼らの警告通りの印象です。
「この技術の初期段階での展開から学ぶことで、AIシステムの能力向上の可能性と意味の両方を理解するのに役立つでしょう」と述べています。もちろん、フィードバックも歓迎しています。使用している方は、何が機能して何が機能していないか、ぜひ彼らに知らせてください。
私は興奮しています。このビデオを公開して、セットアップ方法や実験の始め方をお見せしたかったのですが、すぐに解決されるだろういくつかのエラーに遭遇しました。改善方法が見つかれば、コメント欄や説明欄に投稿します。
皆さんの意見をお聞かせください。これは大きな進展に思えます。なぜなら、大手企業の1つがこれを展開すると、通常は他の企業も追いつこうとするからです。OpenAIやGoogleは確実に後れを取りたくないでしょう。
OpenAIもこれに取り組んでいることは分かっています。MicrosoftのReplayやRecallも、AIエージェントにこれを教えてデータを収集するために設定されているように思います。これは氷山の一角、来るべき津波の先端に過ぎません。使い始めるのが楽しみです。
既に、ソーシャルプロフィールの作成など、特定の操作は拒否するようです。「50億のFacebookプロフィールを作成して」と言っても、実行しません。制限されたコンテンツや、メール送信が必要な操作も実行しません。スパム送信には使えないということです。
しかし、特にコーディングのテストには非常に興奮しています。Claudeにコードを生成させ、そのコードを取り出して実行し、何が機能して何が機能していないかを確認し、元のコードを書いたClaudeにフィードバックを与えることができるでしょうか。
例えば、ゲームに視覚要素がある場合、「この視覚要素がうまく見えない、変更して」というようなフィードバックができれば、それだけでも驚くべき体験になると思います。数日以内にそれができるようになることを期待しています。
コメント欄で皆さんの意見をお聞かせください。実行できましたか?内部エラー500などのメッセージが出る理由が分かりましたか?私もそれ以外にもいくつかのエラーに遭遇しました。簡単な解決策があれば、コメントで教えてください。
第一に皆さんの意見を聞くのが楽しみです。誰もが何を作り出すのか、そしてAnthropicに対して - 素晴らしい仕事をしています。本当に先頭を走り、勢いを増しています。絶対に信じられないほど素晴らしい仕事です。
TwitterのJimmy Applesさんに敬意を表したいと思います。先週、彼は「コンピューター使用が来る」と予言しました。他の誰も話していなかったと思いますが、ここにあります。明らかにその人は舞台裏で何が起きているかを知っていたようです。もはやそれについて疑う余地はありません。
以上です。私の名前はWes rthです。ご視聴ありがとうございました。また次回お会いしましょう。

この記事が気に入ったらサポートをしてみませんか?