Claudeの新機能「computer use」！新たなコンピュータ操作を実体験

2024年10月25日 19:12

AnthropicのAI「Claude」に新しい機能「computer use」が追加されました。これにより、AIが人間のように画面操作を行い、クリックやテキスト入力などを実行できるようになっていくでしょう。

この記事では、この「computer use」が可能にする新しい操作体験と、その新しい機能をテストするための方法について詳しく解説します。

computer useが可能にする操作体験

Claudeの「computer use」機能では、AIが実際のパソコンのように画面上で操作を行います。例えば、ボタンをクリックして設定を変更したり、テキストを入力したりすることが可能です。この機能により、作業の自動化がさらに進み、ユーザーは面倒な手作業をAIに任せることができます。

こうした操作は、特にデータ入力や設定変更が必要な場面で活躍し、顧客サポートなど業務の効率化にも役立ちます。

コンピュータの自動操作と安全性

コンピュータを操作するということは、自分のPCが勝手に操作されてしまうリスクも含んでしまいます。

高度なAI操作には「プロンプト注入攻撃」と呼ばれるリスクもあります。これは、悪意のあるコマンドがAIに渡されてしまう問題です。Anthropicはこのリスクに対応するため、特別なセキュリティ対策を導入しており、安心してAIを使用できるよう配慮しているようです。

DockerでClaudeの操作を仮想実行する流れ

実際に環境を構築して、体験していきます。下記は、クイックスタートのGitのサイトです。

その中から、具体的な方法を1つご紹介します。

事前準備

STEP1 Dockerのインストール

STEP2 ClaudeのAPIキーを取得

STEP3 ターミナルにて環境変数を設定

export ANTHROPIC_API_KEY=<STEP2で取得したAPIキー>

STEP4 ターミナルにてDockerのコンテナを起動するコマンドを入力

docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

STEP5 ブラウザで「http://localhost:8080」にアクセス

その他 ターミナルで「Control + C」を押して終了

操作の流れ

Claudeの画面上のプロンプトに指示を入力すると、AIが自動でパソコンの操作を始めます。

例えば「Googleでプログラミングを検索して」と指示すると、下記の動画のように、AIがブラウザを操作して検索を実行します。

操作に操作してみた課題

さらに、nginxというWebサーバの起動や確認操作を指示してみました。

nginxのインストールは成功しましたが、サーバが起動しているかを確認するためのWebサイトへのアクセスには失敗しました。また、操作ごとに処理速度が遅く、リアルタイムでの利用には改善が必要だと感じました。

さらに、頻繁な操作でAPIの「Rate Limit」に引っかかりやすくなる問題も判明しました。特に、画像やコマンドごとにAPIが呼び出されることに起因すると推測されます。

今後の可能性と展望

Claudeの新しいコンピュータ操作モデルは、企業の業務支援や家庭でのアシスタント利用のほか、RPA（ロボティック・プロセス・オートメーション）にも幅広く応用が期待されています。特に、自由度の高い動きをプロンプトから指示できるため、定型業務の自動化にも柔軟に対応できます。

プログラミング分野は急速に発展している一方で、サービス提供に必要なサーバー構築分野ではまだ改善の余地がありますが、今後の進展が期待されています。Claudeは私たちの生活や業務に一層役立つ存在になるでしょう。