Claudeの新機能「computer use」とは？

TATSUYA SHIRAISHI白石達也

2024年10月23日 22:52

はじめに

2024年10月22日にAnthropic社の生成AI「Claude」のアップデートが発表されました。その内容は以下になります。

Claude-3.5-Sonnetの性能向上
Claude-3.5-Haikuのリリース
β版「computer use」のリリース

この中で、生成AI史上初となるAIがPCを動かせる機能、「computer use」についてまとめいきます。

computer useとは？

テキストでAiに指示をすることで、クリック、カーソル移動など、つまりAIにPCを利用させることができる機能です。

Even while recording these demos, we encountered some amusing moments. In one, Claude accidentally stopped a long-running screen recording, causing all footage to be lost.

Later, Claude took a break from our coding demo and began to peruse photos of Yellowstone National Park. pic.twitter.com/r6Lrx6XPxZ
— Anthropic (@AnthropicAI) October 22, 2024

computer useはどのように動く？

以下のデモの動画（かわいいネコの画像を探してもらっています）も参照ください。

①自然言語で指示を出す
②指示について、どう行うか考え、まず最初のアクションを起こす
③アクションが終わったらスクショをとり、状況を確認しネクストアクションを決める
④アクションを起こす
以下、指示が完了したと判定するまで③と④をループします。

実行結果のエラーも読み取り、対処を行っています。

実際に動かしてみると、「こんな簡単な指示で、AIが自在にPCを扱うのか」と感動するのですが、一方で、「これはどうやったら止まるんだ？」「いちいちスクショをとらないといけないのか」などと思うところもあります。

computer useはどうやって使う？

computer use機能は、今までのようにWEB上でチャットで使用することはできません。適切な環境をPC上に構築し、実行する必要があるので、2024年10月現在ではハードルの高い行為と言えます。具体的には以下のページの注意や使い方を見る必要があります。

以下のgithubページを使用してクイックにデモを行うことが可能で、Dockerと合わせてデモは行いました。

1. Dockerのインストール

Dockerがシステムにインストールされている必要があります。未インストールの場合は、Docker公式サイトからお使いのOSに合ったバージョンをダウンロードしてインストールしてください。

2. Anthropic APIキーの取得

Claudeを利用するために、AnthropicのAPIキーが必要です。まだお持ちでない場合は、AnthropicコンソールでAPIキーを取得してください。

3. リポジトリのクローン

GitHubのリファレンス実装リポジトリをローカルマシンにクローンします。

git clone https://github.com/anthropics/anthropic-quickstarts.git

4. ディレクトリへの移動

クローンしたリポジトリのディレクトリに移動します。

cd anthropic-quickstarts/computer-use-demo

5. APIキーの環境変数設定

ターミナルで、AnthropicのAPIキーを環境変数として設定します。

export ANTHROPIC_API_KEY=あなたのAPIキー

6. Dockerコンテナの実行

以下のコマンドを実行して、Dockerコンテナを起動します。

docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

7. デモアプリへのアクセス

コンテナが起動したら、ウェブブラウザで以下のURLにアクセスします。

http://localhost:8080

このページから、エージェントとのチャットや仮想デスクトップの操作が可能です。

computer useは安全か？

Anthropicから以下のように出ており、まだ軽々と使っていい状況ではないようです。

・β版でこれまでの環境と違うリスクがありえる
・仮想環境を使うことがすすめられる
・ブラウザのアクセスは特定のドメインに制限するなどがすすめられる
・金銭取引は人間に確認するように指示するなど

制御されずにいろんなサイトにアクセスしたり、勝手に色色買うと危険ですからね・・・。

computer useはどんなことに使えそう？

いまはまだどこまで安全に使えるか様子見・・・という安全よりに考えると、手近なところでは、マウスカーソルの移動、クリックなどがどうしても必要な業務などには有効なのではないかという印象を受けました。（例えば、複数のスキャンしたPDFファイルの中身を確認して名前をつけるなど）

特定の業務が得意、というよりは、丸っとPC一台使って業務をお任せする、というレベルにもすぐなりそうな気もしますので、「こんなアプリケーションを作ってほしい」「こういう業界のこういう情報を集めて、プレゼン資料まで作ってほしい」というような指示を与えて一日やらせればいい感じにできそうにも思います。
普段使用している自身のPCと別に、害のない情報しか入っていないPCをAI専用に与えて作業させてみたいです。

computer useは医療には使えるのか？

現在のところは安全面で利用には不安を感じましたが、精度をあげることで、PCを通じて完結する業務について、全て・丸っと依頼することができるのではないかと感じました。

これまでの生成AIとの違いは、「こういう文章出力には向いてて・・・」とかではなくて、もう人間に指示するようにふわっと指示することが可能になると思われます。

「カルテからこういった患者のこういうデータをまとめて、このような資料を作ってほしい」などでもやってくれそうです。

また、いまはPCが利用可能な想定ですが、チャットなどであれば簡易的にやりとり行うなども可能になりそうです。チャットでの相談や情報収集なども勝手にやってくれる時代がきます。

今後の発展に期待ですね！

普段は医師として、またUbieという会社で医療AIサービス開発に関わっています

宣伝

Ubieでは、生成AIの活用も含め、「健康が空気のように自然になる世界」を目指して、企画、開発、分析など様々な業務に取り組んでいます。開発業務やサービスグロースのためのあらゆる挑戦に興味がある方はぜひお話しましょう。twitter で募集しています。