Anthropic Computer Use Demoを試す
Anthropicよりcomputer useモデルが発表されましたので、
この記事ではAnthropic Computer Use Demoを試してみます。
Anthropic2024年10月22日アップデートの詳細は下記を参照ください。
リファレンス実装
README冒頭部分に利用上重要な点が記載されているので翻訳します。
注意
コンピューター利用は現在ベータ版の機能です。この機能には、標準的なAPIや通常のチャットインターフェースとは異なる固有のリスクが伴います。特にインターネットとの連携時にはリスクが高まることにご注意ください。
リスクを最小限に抑えるため、以下のような予防措置をお勧めします:
システムへの直接的な攻撃や事故を防ぐため、最小限の権限しか持たない専用の仮想マシンやコンテナを使用する
情報漏洩を防ぐため、アカウントのログイン情報など機密データへのアクセスを制限する
悪意のあるコンテンツへの露出を減らすため、アクセス可能なドメインを許可リストで制限する
クッキーの承認、金融取引の実行、利用規約への同意など、重要な実世界への影響を及ぼす可能性のある決定や、明示的な同意が必要なタスクについては、人間による確認を必ず行う
状況によっては、Claudeがユーザーの指示と矛盾するコンテンツ内の命令に従うことがあります。例えば、ウェブページや画像に含まれる指示によって、ユーザーの指示が上書きされたり、Claudeがエラーを起こしたりする可能性があります。プロンプトインジェクションに関連するリスクを避けるため、機密データやアクションからClaudeを隔離することをお勧めします。
また、自社製品でコンピューター利用を有効にする際は、エンドユーザーに関連するリスクを説明し、事前に同意を得るようにしてください。
このリポジトリには、Claudeのコンピューター利用を開始するための以下のようなリファレンス実装が含まれています:
必要な依存関係をすべて含むDockerコンテナを作成するためのビルドファイル
Anthropic API、Bedrock、またはVertexを使用して更新されたClaude 3.5 Sonnetモデルにアクセスするためのコンピューター利用エージェントループ
Anthropicが定義したコンピューター利用ツール
エージェントループと対話するためのStreamlitアプリ
モデルの応答品質、API自体、またはドキュメントの品質についてのフィードバックをお寄せください。皆様のご意見をお待ちしております!
重要な注意点
このリファレンス実装で使用されているベータ版APIは変更される可能性があります。最新情報についてはAPIのリリースノートをご確認ください。
コンポーネントは疎結合となっています:エージェントループはClaudeによって制御されているコンテナ内で実行され、一度に1つのセッションでしか使用できず、必要に応じてセッション間で再起動またはリセットする必要があります。
クイックスタート
git clone https://github.com/anthropics/anthropic-quickstarts.git
cd computer-use-demo
export ANTHROPIC_API_KEY=%your_api_key%
docker run
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY
-v $HOME/.anthropic:/home/computeruse/.anthropic
-p 5900:5900
-p 8501:8501
-p 6080:6080
-p 8080:8080
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
やってみる
http://localhost:8080にアクセスするとstreamlitインターフェースに飛びます。既に色々と検証していたので、ExcelにURLが貼り付けられている画面が表示されています。はじめてのアクセスであればデスクトップが表示されているはずです。
まずデスクトップに戻りましょう。「デスクトップに戻って」と指示を出しました。
試行錯誤の上、無事にデスクトップに戻りました。しかし「最小化」が見つからなかったからか、既に開いていたファイルを全て閉じてしまいました。
次に「anthropicについてFirefoxで検索して、検索結果上から3番目のページにアクセスして」と指示を出してみました。
こちらの意図とは少し違いますが、たしかに画面上、検索結果の「Console」を選択してくれました。その後、ログインできない画面であることを理解したためか、ブラウザバックを試みています。
しかし何やら失敗し、ブラウザを閉じることを選択。困ったらブラウザを閉じるパワープレイをよく見かける。
結果、Firefoxを再度開いた状態で処理は終了です。複数の指示を1度に出すとパニクるのかもしれません。
「iphone16のページを開いて」と指示を出しました。
公式ページではなくガジェット系記事に案内されました。
記事をスクロールできるみたいです。
ここいらでInternalServerErrorを出力したのでおしまい。
ガードレールについて
なお「pogo / gmorikiの最新のnote記事を参照し、そのタイトルをコピーしてExcelに貼り付けてください。」と指示を出しました。が、ガードレールが敷かれていました。流石きちんとしてますね。
「アメリカの選挙の現状についてわかるWebページをFirefoxで調べて表示して」も同様です。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?