【生成AI x RPA!】Computer useを試した。未来は感じた。

2024年10月24日 09:48

こんにちは、スクーティーという会社の代表のかけやと申します。

弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。

米国時間2024年10月22日、Anthropic社は新たな言語モデルClaude 3.5 Sonnet、Claude 3.5 Haiku、そしてAIによるコンピューター操作を可能にする革新的な機能"Computer Use"を発表しました。

衝撃を受けたのはComputer Useで、Claudeの言語モデルを介して、自然言語で指示する形でPCの操作を行うというものです。つまり、生成AI x RPA のようなイメージですが、Computer useによってPC上で行う繰り返し作業を自動化できる幅がかなり広がりそうだと感じました。

この記事では、今回発表されたClaude 3.5 Sonnet、Claude 3.5 HaikuとComputer useの概要と、Computer use使用方法、そしてComputer useを使用した所感をお届けしたいと思います。

1. Claude 3.5：進化した言語モデル群

1.1 Claude 3.5 Sonnet：高度な推論とコーディング能力

Claude 3.5 Sonnetは、前バージョンから大幅な性能向上を実現、特にコーディング能力において飛躍的な進化を遂げました。ソフトウェアエンジニアリングタスクのベンチマークであるSWE-bench Verifiedでは、正答率が33.4%から49.0%へと大幅に向上し、OpenAIのo1-previewや他のコーディング特化型システムを含む、公開されている全てのモデルを上回るスコアを記録しているとのことです。

出典：https://www.anthropic.com/news/3-5-models-and-computer-use

エージェントツール使用タスクのベンチマークであるTAU-benchでも、小売分野で62.6%から69.2%へ、航空分野で36.0%から46.0%へと性能向上を示しました。これらの性能向上は、前バージョンと同じ価格と速度で提供されます。

複雑な推論や複数ステップのタスクにも対応可能となり、開発ワークフローの効率化に大きく貢献します。GitLabはDevSecOpsタスクでClaude 3.5 Sonnetの推論能力が最大10%向上し、レイテンシの増加がないことを確認、Cognitionは自律型AI評価でコーディング、プランニング、問題解決能力の向上を実感、The Browser CompanyはWebベースワークフローの自動化で優れたパフォーマンスを確認していますとのことです。

1.2 Claude 3.5 Haiku：高速・低価格・高性能の軽量モデル

Claude 3.5 Haikuは、Anthropic社の最速モデルの次世代版として、高速性、低価格、高性能を高いレベルで両立しています。

Claude 3 Haikuと同等のコストと速度でありながら、全てのスキルセットで性能が向上し、前世代の最大モデルClaude 3 Opusを多くの知能ベンチマークで上回っています。SWE-bench Verifiedでは40.6%を記録、Claude 3.5 Sonnet(旧バージョン)やGPT-4oを含む多くのエージェントを凌駕しています。

この性能はGoogleのGemini 1.5 Flashに匹敵するレベルですが、価格はより低く設定されています。

低レイテンシ、指示追従の向上、ツール使用精度の向上といった特徴は、ユーザー向け製品、特殊なサブエージェントタスク、大規模データからのパーソナライズ体験生成などに最適です。今月末にAPI、Amazon Bedrock、Google CloudのVertex AIで利用可能になる予定で、当初はテキストのみのモデルとして提供され、後に画像入力機能が追加される予定とのことです。

2. Computer Use： AIによるコンピューター操作の実現

2.1 Computer Use： AIの可能性を再定義する革新

Computer Useは、Claude 3.5 Sonnetに搭載された新しい機能であり、AIが人間のようにコンピューターを操作することを可能にします。

AIが画面を見て（実際には、スクリーンショットを撮ってその画像を解析することで）、カーソルを移動し、ボタンをクリックし、テキストを入力するといった操作は、人間向けに設計されたあらゆるソフトウェアの利用を可能にし、AIの可能性を飛躍的に拡張します。Anthropicが公開している動画だと、このあたりがイメージしやすいです

以下のデモ動画では、ClaudeがWebブラウザでClaude.aiにアクセスし、90年代風のホームページを作成するコードを取得、ローカル環境にダウンロード、VS Codeで編集、サーバーを起動してブラウザで表示、エラーを修正するといった複雑なワークフローを自律的に実行しています。

2.2 Computer Useの技術基盤：高度なAI技術の結晶

Computer Useは、Anthropic社が開発した専用のAPI、高度な画像認識技術、自然言語処理技術、強化学習技術の統合によって実現されています。APIを介してユーザーの指示をコンピューターコマンドに変換し、仮想マシン上で実行します。

画面のスクリーンショットを解析し、操作対象の要素をピクセルレベルで認識することで、高精度なマウス操作を可能にしています。限られたソフトウェアでのトレーニングから高い汎化能力を獲得し、多様なアプリケーションに適応可能です。エラー発生時には自己修正と再試行を行い、タスク完了まで自律的に動作します。

2.3 Computer Useの使用方法：ローカルPCのDockerコンテナ上で動かす

とりあえず簡単に動作を試すという用途であれば、ローカルPCのDocker上で動かす方法が一番カンタンです。方法は以下のGithub上に記載されています。他にも、AWSのBedrockやGCPのVertexで動作する方法も紹介されています。

Docker上でComputer useを動作する方法ですが、まず前提条件として、PCにDockerがインストールされていることと、AnthropicのAPI Keyを取得していることが必要です。これらの方法は、本記事では割愛します。

あとは、ローカルPC上で以下のコマンドを実行するだけです。

export ANTHROPIC_API_KEY=%your_api_key%
docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

ちょっと待っていると（私の環境で１０分弱でした）、以下のメッセージが出るので、準備完了です。

noVNC started successfully
✨ Computer Use Demo is ready!
➡️  Open http://localhost:8080 in your browser to begin

指示通りに　http://localhost:8080　へアクセスすると、以下のような画面がたち上がります。

2.4 Computer Useの制限事項とリスク

Computer Useは本記事執筆時点（2024年10月23日）でベータ版のため、制限事項とリスクが存在します。

パフォーマンス: 複雑なUI操作や複数アプリケーション同時操作は、処理速度低下や誤操作につながる可能性があります。デモ動画のPCパーツ選択やチェスゲームで、操作遅延や誤りが発生しています。
セキュリティ: プロンプトインジェクションは深刻なリスクです。悪意ある指示により意図しない動作や機密情報漏洩の可能性があります。
機能制限: 安全性確保のため、アカウント作成、SNS投稿、購入、個人情報アクセスなどが制限されています。
精度と信頼性: 画面認識精度は100%ではなく、誤操作の可能性があります。APIのレート制限も存在します。

3. Computer useを使ってみる

上記に紹介したローカルPCのDocker上で動作する方法でComputer useを試してみました。とりあえず、フォーム営業っぽいユースケースを想定して、弊社のコーポレートサイトにアクセスし、お問い合わせページへ遷移し、営業メッセージを送信する、っぽい操作をさせてみました。

画面での指示は以下のとおりです。

１．ブラウザを立ち上げる。
２．ブラウザで　https://www.scuti.jp　にアクセスする。
３．お問い合わせページへのリンクをクリックする。
４．自分の名前を「掛谷知秀」とし、それ以外は適当に入力し（しかし、それでいて意味のある入力をしてください）、メッセージを送信する。

その結果、以下の動画のように動作しました。

おお！それっぽく動いています！これは未来を感じる！

今回はフォーム営業を想定した指示をしてみましたが、ソフトウェア開発ではE2Eの自動化（自然言語でテストケースを作成して、実行と結果の取得はComputer useに任せる）とかできそうです。

まだβ版なので、以下の点で実運用として使用するにはまだ難しいと感じました。

PCがめちゃめちゃ重くなる。私のRAM8GのMacbook Proではなかなか厳しく、ほぼ止まりかけました。
Computer use自体の処理時間も結構掛かる。スクリーンショットを撮って、解析して、その結果に基づいて指示を与え、画面を操作する、ということをやっているので、何度も通信と言語モデルでの推論が必要になっているためと思われます。
フォームへの入力する文字列が正しくない。例えば今回は弊社お問い合わせフォームの氏名欄に「掛谷」「知秀」を入力してもらいましたが、名字の「谷」だけが入力されました。
スクロールして画面全体をキャプチャできないっぽい。Computer useで画面操作をするために、AIがPCの画面のスクリーンショットを撮るという処理があるのですが、縦に長い画面でもファーストビューしか撮ることができませんでした。今回の例だとフォームの送信ボタンは下にスクロールしないと見つからないため、AIが送信方法を見つけられないという状況になっていました。実際、送信はできていませんでした。
ローカルPCに保存されているファイルを使用したい場合はどのような方法を取れるのかが不明。

4. まとめ

Computer UseはAIによるコンピューター操作を可能にする革新的な機能で、様々な分野での応用が期待されます。ベータ版のため制限事項やリスクも存在しますが、今後の開発と改善により、より強力で安全なツールへと進化していくでしょう。

最後に

最後までお読みいただき、ありがとうございます！

弊社では、LLM（大規模言語モデル）やアーキテクチャの選定、技術検証、生成AIを使用したプロトタイピングやシステム開発、お客様社内での啓蒙活動等を対応させていただく「生成AIコンサルティング」サービスを提供しています。

また、業務利用できるChatGPTのような仕組みである「セキュアGAI」も提供しています。

この記事が気に入ったらサポートをしてみませんか？