🔰【生成AIがパソコン操作を代行！？】Anthropic Computer use始め方

えんぞう

2024年10月23日 23:23

はじめに

久々に生成AIの話題で驚きました！

2022年11月にChatGPTを触って以来の驚きかもしれません。

なんと、ついに生成AIが人間に代わってパソコンを操作するようになったのです！

RPAでもデスクトップの自動操作はできますが、フロー作るのって面倒ですよね？

それが、この「computer use」を使うと、チャットで指示するだけで自動的にデスクトップを操作してくれます。

始め方

docker実行

export ANTHROPIC_API_KEY=%your_api_key%
docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

APIキーは後でUI上で入力することもできます。

Anthropic、bedrock、vertexのAPIに対応しているようです。

dockerが立ち上がったらブラウザを起動して以下にアクセスします。

http://localhost:8080/

画面操作

URLにアクセスすると以下のような画面が表示されます。
左側はStreamlitの画面で、右側にUbuntuのデスクトップ画面が表示されています。

デスクトップは安全のため仮想的なUbuntu環境を使うような仕組みになっているようです。

左側には設定画面が隠れています。

表示するとAPIキーが入力できます。
今回はAnthropicのClaude3.5sonnetを使いました。

チャットの入力欄がありますので、さっそく何か指示してみましょう。

Webでclaudeについて調べて

左側のStreamlitの画面が動き出しました。

右側のUbuntuのデスクトップを見ると、自動的にFirefoxが立ち上がりました。

そのあと、続けてGoogleを開いて、「claude ai anthropic」と検索しているようです。

ここまで、最初のチャットの指示だけで自動で動いています。

最終的に左側のチャットの画面に調べた結果が返ってきました。

回答結果

検索結果が表示されました。主な情報をまとめますと：

ClaudeはAnthropic社が開発した次世代AIアシスタントです。

主な特徴：

安全で正確、そして安心して使える設計
ビジネスでの重要なユースケースに対応
幻覚（誤った情報を作り出すこと）の発生率が非常に低い
長文のドキュメントでも高い精度を維持
最新情報：
現在のバージョンはClaude 3.5（2024年6月21日時点）
IQスコア101を記録
ビジネスユースに最適化された設計
開発元：
Anthropic社（人工知能の研究・開発を行うアメリカの企業）
主な用途：
ビジネス文書の作成・編集
複雑な分析や調査
長文の理解と要約
安全で信頼性の高い情報提供
これらの情報から、ClaudeはGPT-4などと並ぶ最新の大規模言語モデルの一つで、特に安全性、正確性、そしてビジネスでの実用性に重点を置いて開発されていることがわかります。

より詳細な情報が必要な場合は、特定の側面について深く調べることもできます。何か具体的に知りたい点はありますか？

ここまでチャットで指示しただけで全自動で、デスクトップ環境を自動操作してくれました！！

これだけだとWeb検索と変わらないので、他のデスクトップアプリを操作してもらいましょう。

プロンプト

WebでClaudeのモデル一覧と料金を調べて、その結果を表形式でまとめて。

さきほどと同じように、Firefoxで検索して調査しています。

左側のチャット欄に結果を返してくれました。

回答結果

つづけてプロンプトを入力します。
結果を表計算ソフトに保存してもらいましょう。

さっきの結果を表計算アプリを起動して保存して。

右側のUbuntuの画面を見ていると、自動的に表計算アプリのLibreOffice Calcを起動されました。

チャットの回答

了解しました。表計算アプリ(LibreOffice Calc)を起動して、先ほどの表を作成し保存しましょう。

さらに待っていると、自動的にさきほどチャットで回答してくれた表形式の内容を、表計算アプリに入力し始めました。

入力が終わると、保存ダイアログが起動しました。

まとめ

いかがでしたでしょうか。

とうとう生成AIが、パソコンの画面を操作し始めました。

音声入力も新しいモデルが進化していますので、音声でプロンプトを実行するようにすれば、話しかけただけでパソコンで仕事をしてくれます。

まだまだ、プロンプトの指示通り動いてくれないこともありますが、自分自身は普通にパソコンで仕事しながら、隣のAIに話しかけて調査やアウトプットをまとめてくれることが実現できます。

やはり、Anthropic社は生成AIの使い方のセンスがよいですね。