見出し画像

【働き方に革命】AIがパソコンを支配する。驚きのClaude最新アップデート「Computer User demo」を徹底解説。《Claude 3.5 sonnet、Haikuの性能、PC自動操作の活用事例30選》

みなさん、こんにちは。
チャエンです!(自己紹介はこちら

速報🔥このアップデートは半端ないです!
Claudeが人間のようにパソコン操作が可能になりました。例えば、90年台の風のウェブサイトを作ってと指示すると
①コード生成
②ファイルDL
③サーバー起動+アップロード
④バグ修正
とパソコンを操作して複雑な業務をこなしてくれます。

今後は「あの資料作って、あの人に送って」みたいな指示で人間が全く働く必要の無い世界線が見えてきましたね。

今回は、アップデートの概要や話題になっているComputer use demoの概要、活用事例30選などを紹介します。気になっているという方はぜひご一読ください🔥



1.アップデートの概要

Anthropicは10月22日に3つの最新アップデートを公開しました。
Claudeの最新モデル「Claude 3.5 Sonnet」「Claude 3.5 Haiku」と、

PCの画面をAI操作する「Computer use」の発表です。

1-1 今回の革新的な新機能「Computer Use」

AIがマウスとキーボードを自動で操作する機能が搭載されました。プロンプトを入力した通りにコンピューターが操作するので、単純作業からはお別れできそうです。詳しくは以下で紹介します。

1-2 Claude 3.5 Sonnet/Claude 3.5 Haikuのアップデート

今回のClaude 3.5 Sonnetのアップデートで、コーディング能力は「o1-preview」を含む、公開されているすべてのモデルより高いスコアを達成しました。

また、新たにClaude 3.5 Haikuが公開されました。応答時間と改善された推論機能が搭載されているため、生成のスピードと推論の両方が必要になるタスクに最適です。
それぞれのアップデートを詳しく説明していきます。

1-3 安全性への取り組み

①US AI Safety Institute(米国AI安全性研究所)とUK Safety Institute(英国安全性研究所)による徹底的なテストと評価
今回の評価では、サイバーセキュリティや化学、生物学的能力の側面が重視し、安全対策の有効性や、国家安全保障に関連するリスクの評価も行われたそうです。

②Responsible Scaling Policyに基づく評価
ASL-2 Standardを維持しているとの評価を受けました。ASL-2 Standardは、AIの運用において重大なリスクを引き起こす可能性が低いと判断される水準です。

③プロンプトインジェクション攻撃への対策が強化
有害なコンテンツを含むスクリーンショットを検出するシステムが導入されています。また、子どもの安全に関する専門家からのフィードバックを反映した追加的な安全措置も施されています。

2.Claude 3.5 sonnetのアップデート

Claude 3.5 Sonnetは、現在すべてのユーザーに提供開始されています。基本仕様として、パラメータ数: 1,750億以上コンテキストウィンドウ: 200,000トークン(約150,000語)知識カットオフ: 2024年4月です。

▼6月に公開された時のClaude 3.5 Sonnetのスペックはこちらです。

2-1 Claude 3.5 Sonnetの性能

前モデルに比べて全体的な性能が向上しています。OpenAIのo1-previewのような推論モデルや、エージェント的コーディングに特化したシステムを含む、すべての公開モデルを上回るスコアを達成しました。また、HumanEvalベンチマークで93.7%のスコアを記録したとされています。

特にコードの分野で大きな進歩が確認されています。コーディングベンチマークが33.4%→49.0%にアップデートし、業界をリードするソフトウェアエンジニアリング能力を有しています。

2-2 企業での活用実績

リリース前に実施した顧客フィードバックの結果も公開しています。

①GitLab
最もインクルーシブなDevSecOpsプラットフォームであるGitLabを提供しているGitLabは、DevSecOpsタスクにテストしたところ、推論能力が10%向上したとフィードバックしました。(ケースによって異なる)
また使用中にレイテンシーの追加はなく、複数ステップのソフトウェア開発プロセスに理想的であることが確認されました。

②Cognition
新しいClaude 3.5 Sonnetを自律AI評価に使用し、前バージョンに比べ、コーディング、計画、問題解決の面で大幅な改善を体験しました。

③業界別性能

  • 小売分野(TAU-bench): 62.6%から69.2%に向上

  • 航空分野(TAU-bench): 36.0%から46.0%に向上

2-3 ユースケース

Claude 3.5 Sonnetは、微妙な指示や文脈を理解しミスを修正、複雑なデータから高度な分析や洞察を生み出す能力を持っています。最先端のコーディング、視覚処理、文章作成スキルと組み合わせることで、さまざまなユースケースに活用できます。

①コード生成
ソフトウェア開発のライフサイクル全体のサポートができます。初期設計からバグ修正、メンテナンス、最適化まで幅広く対応可能です。自社製品にClaudeを組み込むか、Claude.aiを通じてコーディングアシスタントとして活用できます。

②高度なチャットボット
強化された推論力と温かみのある人間らしいトーンを持つので、さまざまなシステムやツールを横断してデータを接続し、アクションを実行する必要があるチャットボットに最適です。

③ナレッジQ&A
大きなコンテキストウィンドウを持ち、ハルシネーションの発生率が低いので、大規模なナレッジベースや文書、コードベースに関するデータベースに向いています。

④視覚データの抽出
チャート、グラフ、複雑な図から情報を抽出することが得意で、データ分析やデータサイエンスのタスクにも最適です。

⑤ロボティックプロセスオートメーション
繰り返しのタスクやプロセスを自動化できます。業界トップクラスの指示追従能力を持ち、複雑なプロセスや操作にも対応可能です。

2-4 Sonnetの料金

トークンは以下の通りです。また、プロンプトキャッシュを使用することで最大90%のコストを削減が可能になりました。メッセージバッチAPIで最大50%のコスト削減できるとされています。

  • 入力トークン: 100万個あたり3ドル

  • 出力トークン: 100万個あたり15ドル

3.Claude 3.5 Haikuの公開

待望の新モデルとして今回新たに公開されたのがClaude 3.5 Haikuです。リリースは2024年10月後半からで、Anthropic API・Amazon Bedrock・Google Cloud Vertex AIで利用可能とのことです。

3-1 Claude 3.5 Haikuの性能

Claude 3 Haikuと同じコストと同様のスピードを維持しながら、前世代の最大モデルであるClaude 3 Opusを超えるモデルです。

特に、コーディングタスクに強みを発揮しており、SWE-bench Verifiedで40.6%のスコアを記録し、公開されている最先端モデル(Claude 3.5 SonnetやGPT-4o、Gemini 1.5 Flash)を凌駕しています。

3-2 想定される使用シーン

高速処理、指示に対する精度の向上、そしてより正確なツール使用が可能となったClaude 3.5 Haikuは、ユーザー向け製品、専門的なサブエージェントタスク、大量のデータからパーソナライズされた体験を生成する作業に適しています。

①コード補完
Claude 3.5 Haikuは、素早く正確なコード提案や補完を提供し、開発ワークフローを加速させます。コーディングプロセスを効率化し、生産性を向上させたいソフトウェアチームに最適です。

②インタラクティブなチャットボット
会話能力の向上と高速な応答時間を備えたClaude 3.5 Haikuは、大量のユーザーとのやり取りを処理できる応答性の高いチャットボットに最適です。特に、カスタマーサービス、eコマース、教育プラットフォームなど、スケーラブルなエンゲージメントが必要な場面で高い価値を発揮します。

③データ抽出とラベリング
Claude 3.5 Haikuは情報の迅速な処理と分類を効率的に行い、データ抽出や自動ラベリングタスクに適しています。この機能は、特に金融、医療、研究分野など、大量の非構造化データを扱う組織にとって有用です。

④リアルタイムのコンテンツモデレーション
Claude 3.5 Haikuは、改善された推論力とコンテンツ理解能力を通じて、信頼性の高い即時のコンテンツモデレーションを提供します。これは、ソーシャルプラットフォームやオンラインコミュニティ、メディア組織がスケールに応じて安全で適切なコンテンツを維持するために役立ちます。

3-3 HaikuのAPI利用時の料金体系

Sonnetと比べてもかなり低価格なことがわかります。価格面でも、AIの導入がますます簡単になりますね。

4.Computer useの概要

ユーザーが入力したコマンドに従ってコンピュータ画面上のカーソルを移動させ、仮想キーボードを使って情報を入力できるようになりました。人間がコンピュータを操作するように、Claudeが操作をしてくれます。

4-1 Computer useのできること

①複雑なタスクの処理
数百ステップに及ぶ複雑な作業を一括で実行可能で、スクリーンショットを解析し、カーソル移動やクリック、テキスト入力などを正確に行います。

また、複数のアプリケーションを跨いだ操作もスムーズに実行できるので、日々の業務に簡単に組み込むことができます。

②エラー処理と自己修正
障害に遭遇した場合、自動的にエラーを検出するので、無限ループやパソコンが暴走するのを防ぐことができます。
また問題のあるステップを再試行し、タスクを完了させる能力を備えているので、細かい指示を常にする必要はありません。

③24時間365日の稼働
人間の介入なしに継続的に作業を行うことが可能です。

4-2 Computer useを実現できた理由

通常はAPI経由で特定の操作を行うようにトレーニングされていますが、Claudeは私たちと同じように、WordやExcelのようなソフトやインターネット検索など、実際にコンピュータの画面を見て、マウスやキーボードを使って人間と同じように操作ができます。
つまりAPIを組み込めば、Claudeが「ブラウザを開いてウェブサイトを見て操作する」といった具体的なコンピュータ操作もできるようになるのです。

またこのモデルを通して、コンピュータを操作するために使用する3つの新しい統合ツールにアクセスできるようになりました。

  • コンピュータツール
    スクリーンショットや目標を入力として受け取り、その目標を達成するために必要なマウスやキーボードの操作を説明しますカーソルを特定の場所に動かす→クリックする→テキストを入力する→スクリーンショットを撮るといった操作を指示できます。

  • テキストエディタツール
    モデルがファイルの内容を表示したり、新しいファイルを作成したり、テキストの置き換えや編集の取り消しといった操作を行うことができます。

  • Bashツール
    ターミナル(コマンドライン)に入力されたコマンドに応じて、コンピュータシステムで実行できるコマンドを返します。より低レベルのシステム操作が可能になります。

以上が、Claude 3.5 Sonnet駆動のアプリケーションが人間と同じようにコンピュータとやり取りできるようになった理由です。

4-3 現状の限界と注意点

まだまだいくつかの課題やリスクが残っているため、ユーザーは慎重に利用する必要があります。

①操作の制限
人間に近い形でコンピュータを操作できますが、スクロールドラッグズームといった複雑な操作には課題が残っています。指示の内容によっては人間が行うよりも長時間を要することがあります。

②精度の問題
優れた性能を持っていますが、完全な精度を保証するものではありません。座標出力に誤差が発生したり、AI特有の「ハルシネーション」が見られることがあります。
OSWorldベンチマークでは、Claudeのスコアは14.9%にとどまっており、人間の70〜75%というレベルにはまだ遠い数値です。重要な操作やタスクにおいては、AIの結果を確認し、必要に応じて手動で修正することが必要です。

③セキュリティリスク
Claude 3.5を使用する際に特に注意すべき点は、セキュリティリスクです。最も大きなリスクの一つとして、プロンプトインジェクション攻撃が挙げられます。
Webページや画像に含まれる指示が、ユーザーが意図しない操作を誘発する可能性があり、ファイルに仕組まれたウイルスを触ってしまうなどのリスクに繋がります。

一方でComputer Use機能の安全対策も取られています。まず、ユーザーのプライバシー保護のため、提供されたデータでの学習を制限しています。さらに、スパムや不正行為を検出するための分類器システムが実装され、政府ウェブサイトやソーシャルメディアへの投稿を制限するなどの措置も取られています。

5.Computer useの使い方

Computer useはパソコンのローカル環境で動かす必要があるため、事前準備からわかりやすく紹介します。

5-1 事前準備/必要なもの

Docker: Computer Use機能の安全かつ効率的な実行にはDockerコンテナの使用が推奨されています。
インストールはこちら:Dockerの公式サイト

Downloadから自身の使っているものにあったソフトをダウンロードしましょう。

Anthropic APIキー: Claudeをローカルで利用するために必要です。公式のAPI Consoleにログインし、Settings→API Keysで確認することができます。

5-2 ローカルに落とし込む

パソコンで起動できるように準備をします。

①GitHubのリポジトリをクローンします。

git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo

②環境変数の設定
今回はAnthropic APIを設定します。your_api_keyの部分を、先ほどサイトで確認した自身のAPIキーに置き換えて入力します。

export ANTHROPIC_API_KEY=your_api_key

③Dockerコンテナの実行

dockerコマンドを実行します。初期設定が必要な方は、適宜サイトで調べて進めてください。今回は割愛します。

docker run \
  -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
  -v $HOME/.anthropic:/home/computeruse/.anthropic \
  -p 5900:5900 \
  -p 8501:8501 \
  -p 6080:6080 \
  -p 8080:8080 \
  -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

④デモアプリへのアクセス
コンテナが正常に実行されたら、以下のURLにアクセスし動作を確認しましょう。ここから、デスクトップビューなどにアクセスできます。

http://localhost:8080

6.プロンプト付き活用事例30選

想定シーンをまとめたリンクを共有します。AIがパソコンを操作するClaudeのComputer Use demoマジで感動するので試してみてください。

以下のリンクにプロンプト付き活用事例30選も全てまとめております🔥
AIの未来を今すぐ体感したい方は必見です。

ここから先は

3,518字

¥ 900

この記事が気に入ったらサポートをしてみませんか?