見出し画像

AIでPCを自動操作するClaudeの新機能の使い方

10月23日、AnthropicはClaude 3.5 Sonnetをアップデートし、PCを自動操作できる「Computer Use」という機能のベータ版を追加しました。この機能はAPIを通じて利用可能で、人間のように画面の内容を認識し、カーソルを移動し、テキストを入力することなどができます。

Anthropicは、この新機能を安全かつ簡単に試せるように以下のDockerを利用するデモを用意しています。今回は、このデモを利用して新機能を使用する方法について詳しく説明します。

注:Dockerは、アプリケーションとその依存関係をコンテナ化し、一貫した環境で実行できるプラットフォームです。コンテナは隔離されて動作するため安全性が高く、システムに影響を与えにくいのが特徴です。また、軽量で効率的にリソースを使えるため、効率的な開発と運用が可能になります。


1.Computer Use導入の準備

今回はWindows PCでの利用を想定しています。
新機能Computer Useのデモを利用するには、事前に以下の準備が必要です。

  1. Dckerのインストール

  2. ClaudeのAPIキーの入手

(1) Dockerのインストール

以下のサイトから指示に従ってDocker Desktopをダウンロードし、インストールしてください。

インストールの手順については、以下のサイトなどを参考にしてください。

(2) ClaudeのAPIキーの入手

Anthropicの公式サイトアカウント登録して、ClaudeのAPIキーを入手します。APIキーは一度画面を閉じると表示されなくなるので、必ずメモなどにコピーして保存してください。

アカウント登録やAPIキー入手の手順については、以下のサイトなどを参考にしてください。

クレジットカードなどの決済情報を入力した後、APIキーを使用するためにクレジットを購入する必要があります。購入金額は最低5ドル(約760円)からです。
2回目のクレジット購入からは、以下の「Settings」→「Billing」のページ「Add Funds」をクリックしてクレジットを追加してください。

これで、新機能導入の準備が整いました。

2.Computer Useのデモの実行

それでは、新機能Computer Useのデモを実行していきます。

(1) 最初に、Docker Desktopのアイコンをダブルクリックして、起動してください。

Docker Desktopの操作画面

(2) 次に、Windowsのスタートボタンからコマンドプロンプトを探してクリックし、開いてください。

(3) コマンドプロンプトに以下のコードを入力してリターンキーを押してください。ストップしたら、そこでまたリターンキーを押します。なお、2行目の「あなたのAPIキー」の部分には、上記1(2)で入手したAPIキーの文字列をコピーしてください。

git clone https://github.com/anthropics/anthropic-quickstarts
set ANTHROPIC_API_KEY=あなたのAPIキー
docker run -e ANTHROPIC_API_KEY=%ANTHROPIC_API_KEY% -v %USERPROFILE%\.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

また、2回目からは以下を入力するだけでOKです。

set ANTHROPIC_API_KEY=あなたのAPIキー
docker run -e ANTHROPIC_API_KEY=%ANTHROPIC_API_KEY% -v %USERPROFILE%\.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

最初からやり直す場合は、以下のように「anthropic-quickstarts」のフォルダを削除してからやり直してください。

rmdir /s /q anthropic-quickstarts

(4) 最後に「Open http://localhost:8080 in your browser to begin」と表示されたら成功です。ブラウザを開いて、http://localhost:8080にアクセスすると、以下のようにComputer Useのデモがスタートします。

コマンドプロンプトの「http://localhost:8080」のリンクをCtrlキーを押しながらマウスでクリックしても、ブラウザが開いてデモをスタートできます。

3.明日の東京の天気を教えて

「明日の東京の天気を教えて」と入力すると、デモが動き出しました。最初にスクリーンショットを撮ってデスクトップの状態を確認しました。

Firefoxブラウザが起動しました。

気象庁のWebサイトにアクセスしようとしています。

気象庁のWebサイトが表示されました。

都道府県選択から東京都を選択しようとしています。

東京都の天気予報が表示され、明日の東京の天気について正しく回答できました。

ここまでに1分10秒かかり、使用料金は0.2ドル(約30円)でした。

4.フリーレンの画像を検索して拡大表示して

(1) 日本語での検索

最初に作業の手順が表示されました。

Firefoxブラウザが起動しました。

検索バー(アドレスバー)から「フリーレン 画像」で検索しようとしています。

正確にキーワードをタイプすることができず、検索に失敗しました。

その後も何度も検索に失敗しました。

キリがないので作業をストップしました。ここまでに約4分かかり、使用料金は0.59ドル(約90円)でした。

(2) 英語での検索

検索時の日本語キーワードの入力で失敗することが多かったので、「Frierenの画像を検索して」と英語での検索を試してみます。

最初に手順が表示されます。

Firefoxブラウザが起動し、Google画像検索のページが表示されました。

キーワードとして「Frieren」が入力され、画像検索の結果が表示されました。

中央のフリーレンの画像をクリックしてポップアップが表示されました。

隣のタブに新しい画像が表示されたようですが、AIがタブを切り替えてくれないので見ることができません。

仕方がないので、タブを切り替えて画像を見せるように指示しました。

やっと新しいフリーレンの画像を見ることができましたが、あまり大きくは表示してもらえませんでした。

タブの切り替えを指示をする前までに3分10秒かかり、使用料金は0.46ドル(約70円)でした。

英語で検索させることによって、検索の失敗が減り、作業全体の成功確率がかなり上がるようです。

5.現在、Amazonで一番売れている生成AI関連の本は?

最初に作業の手順が表示されました。

Firefoxのブラウザが起動しました。

Amazonのサイトが表示されました。

検索バー(アドレスバー)から「AI」を検索したため、Amazonのサイトから離れてしまいました。

やっとAmazonのサイトから離れたことに気づいたようです。

Amazonのサイトに戻ってきました。

今度は、Amazonの検索欄に入力しましたが、タイプミスにより「AI キン」と入力したため、検索結果に18禁の本が出てきて固まってしまいました。

ここでトークン数が1分当たりの制限を超えて、レートリミット・エラーで作業がストップしました。なお、Claude 3.5 Sonnetの1分当たりの制限は、Tier 1の場合40,000トークンです。
参考:Rate limits - Anthropic

ここまでに約3分かかり、使用料金は0.43ドル(約65円)でした。

今回の場合も、英語で指示すると、検索時のキーワードのタイプミスが減り、成功確率が上がるようです。但し、英語で検索したために、出力結果も英語の本になっています。

6.Googleのブロック崩しゲームをプレーして

最初にGoogleのブロック崩しゲーム(Breakout Game)をプレーするための作業の手順が表示されました。

Firefoxブラウザが起動しました。

検索バー(アドレスバー)に「Google breakout game」と入力して検索しています。

Googleのブロック崩しのサイトへのリンクを見つけました。

AIがリンクをクリックして、Googleのブロック崩しのサイトを開きました。

上手くはありませんが、AIがバーを操作してブロック崩しをプレーしています。

AIのプレーはあまり上手くないので、すぐにゲームオーバーになりました。最終スコアは33点でした。

ここまでに2分11秒かかり、使用料金は0.41ドル(約62円)でした。

7.楽天の最近の決算を分析し、グラフも表示して

最初に簡単な作業手順が表示されました。

Firefoxブラウザが起動しました。

検索バー(アドレスバー)にキーワードを入力してサイトを検索しようとしています。

「楽 IR」という不正確な入力でしたが、Google検索で楽天グループのIR資料のページへのリンクを見つけました。

AIがリンクをクリックして、楽天グループの2024年度決算短信などのページを開きました。

残念ながら、ここで1日のトークン数制限にかかり、作業がストップしてしまいました。なお、Claude 3.5 Sonnetの1日当たりの制限は、Tier 1の場合100万トークンです。
参考:Rate limits - Anthropic

ここまでに1分14秒かかり、使用料金は0.19ドル(約29円)でした。

8.まとめ

特に検索でのキーワード入力のタイプミスが多く、作業を失敗することが多いです。Google検索は、多少の入力ミスがあっても、正しいキーワードを推測して検索してくれるので、上手くいくこともあります。

なお、英語で検索するように指示すると、検索時のキーワード入力のミスが減り、作業の成功確率が上がるようです。

また、試行錯誤を繰り返すので、作業に結構時間がかかり、使用料金も安くはないので、まだ実用的ではありません

一方で、簡単な指示でも、AIが自分で作業手順を考えて、試行錯誤しながら作業を進めていくので、見ていて楽しいです。また、今後、操作が正確になれば、かなり複雑な業務もこなすことができそうで、ポテンシャルは感じられます

AIの進化は非常に速いので、1年後には実用的なレベルまで成長している可能性があります。将来的にどんなことができるのか想像してみましょう。

現在のところは、特に実用性は考えずに色々と試してもらえば、今後のための勉強にもなると思います。


この記事が気に入ったらサポートをしてみませんか?