PCを操作できる新しいClaudeモデルの発表

2024年10月23日 03:00

10月23日、Anthropicは、PCの操作ができるClaude 3.5 Sonnetのアップグレード版を発表しました。また、併せてClaude 3.5 Haikuも発表しています。
今回、この発表内容を全訳して紹介します。

コンピューター使用の導入、新しいClaude 3.5 SonnetとClaude 3.5 Haiku

2024年10月23日
5分で読める

今日は、アップグレードされたClaude 3.5 Sonnetと、新しいモデルClaude 3.5 Haikuを発表します。アップグレードされたClaude 3.5 Sonnetは、特にコーディング分野で大幅な改善がなされ、前モデルに比べて全体的に性能が向上しています。この分野では既に業界をリードしていましたが、さらに進化しています。一方、Claude 3.5 Haikuは、以前の最大モデルClaude 3 Opusと同等の評価を、多くのテストで同じコストと同様のスピードで達成しています。

また、新たに「コンピューター使用」という画期的な機能をパブリックベータ版として導入します。本日からAPIで利用可能で、開発者はClaudeに、まるで人間のように画面を見たり、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力するように指示できます。Claude 3.5 Sonnetは、パブリックベータでコンピューター使用を提供する初のAIモデルです。現段階では実験的なものであり、時には使いにくく、エラーが発生することもありますが、開発者からのフィードバックを受け、今後急速に改善していく予定です。

Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyなどの企業が既にこれらの可能性を探っており、数十、時には数百ものステップを要するタスクを実行しています。例えば、ReplitはClaude 3.5 Sonnetのコンピューター使用とUIナビゲーションの能力を活用して、Replit Agent製品においてアプリを評価するための主要な機能を開発しています。

アップグレードされたClaude 3.5 Sonnetはすべてのユーザーが利用可能です。今日から、開発者はAnthropic API、Amazon Bedrock、Google CloudのVertex AIを通じて、コンピューター使用ベータ版を活用できます。新しいClaude 3.5 Haikuは今月末にリリースされます。

Claude 3.5 Sonnet: 業界をリードするソフトウェアエンジニアリングスキル

更新されたClaude 3.5 Sonnetは、業界のベンチマークで幅広い改善を示し、特にエージェント的コーディングやツール使用タスクで顕著な向上を見せています。コーディングに関しては、SWE-bench Verifiedのスコアを33.4%から49.0%に向上させ、OpenAI o1-previewのような推論モデルや、エージェント的コーディングに特化したシステムを含む、すべての公開モデルを上回っています。また、小売業ドメインのエージェント的ツール使用タスクであるTAU-benchでの成績も62.6%から69.2%に向上し、より難しい航空業ドメインでも36.0%から46.0%に向上しました。これらの進化は、前モデルと同じ価格とスピードで提供されます。

初期の顧客フィードバックでは、アップグレードされたClaude 3.5 Sonnetが、AIを活用したコーディングにおいて大きな飛躍を遂げたとされています。GitLabは、このモデルをDevSecOpsタスクでテストし、遅延を追加することなく、使用ケース全体で最大10%の推論向上を確認し、複数のステップから成るソフトウェア開発プロセスを推進するのに理想的な選択肢としています。Cognitionは、前バージョンと比べて、コーディング、計画、問題解決において大幅な改善が見られたと報告しています。The Browser Companyは、ウェブベースのワークフロー自動化にこのモデルを使用しており、これまでテストしたすべてのモデルを上回る成果を得たと述べています。

外部専門家との協力を続ける一環として、米国AI安全研究所（US AISI）と英国安全研究所（UK AISI）が新しいClaude 3.5 Sonnetモデルの共同事前展開テストを実施しました。

また、アップグレードされたClaude 3.5 Sonnetを壊滅的なリスクについて評価したところ、責任あるスケーリングポリシーに基づくASL-2基準が、このモデルにも適用できることを確認しました。

Claude 3.5 Haiku: 最先端技術と手頃な価格、スピードの両立

Claude 3.5 Haikuは、最速のモデルの次世代バージョンです。同じコストと同様のスピードで、Claude 3.5 Haikuはすべてのスキルセットにおいて向上し、前世代の最大モデルであるClaude 3 Opusを多くの知能ベンチマークで上回っています。特にコーディングタスクに強く、SWE-bench Verifiedでは40.6%のスコアを達成し、公開されている最先端モデルを使用する多くのエージェントを上回っています。これには元のClaude 3.5 SonnetやGPT-4oも含まれます。

低遅延、指示の正確なフォロー、ツール使用の精度向上により、Claude 3.5 Haikuはユーザー向け製品や、特化したサブエージェントタスク、膨大なデータからパーソナライズされた体験を生成するタスクに適しています。例えば、購入履歴、価格、在庫記録などです。

Claude 3.5 Haikuは、今月後半にファーストパーティAPI、Amazon Bedrock、Google CloudのVertex AIで提供されます。当初はテキストモデルのみで、画像入力は後に対応予定です。

Claudeにコンピューターを操作する方法を教える、責任あるアプローチ

コンピューター使用機能では、根本的に新しい試みを行っています。Claudeが個々のタスクを完了するための特定のツールを作るのではなく、汎用的なコンピュータースキルを教え、一般の人々向けに設計された幅広い標準ツールやソフトウェアを使用できるようにします。開発者は、この新たな能力を活用して、繰り返しのプロセスを自動化したり、ソフトウェアを構築・テストしたり、オープンエンドなタスク（例えば、リサーチなど）を実行したりすることができます。

これらの汎用スキルを可能にするために、コンピューターインターフェースを認識し操作できるAPIを開発しました。開発者はこのAPIを統合し、指示（例：「私のコンピュータやオンラインのデータを使ってこのフォームを記入して」）をコンピューターコマンドに変換（例：スプレッドシートを確認し、カーソルを動かしてウェブブラウザを開き、関連するウェブページをナビゲートして、これらのページから取得したデータでフォームを記入する、など）できます。AIモデルが人間のようにコンピューターを使用する能力を評価するOSWorldで、Claude 3.5 Sonnetはスクリーンショットのみのカテゴリーで14.9%を記録し、次に優れたAIシステムの7.8%を大きく上回りました。さらに、タスクを完了するステップ数が増えると、Claudeのスコアは22.0%に上がりました。

この機能は今後数ヶ月で急速に改善される見込みですが、現在のClaudeのコンピューター操作能力には不完全な部分もあります。人間が簡単に行うスクロールやドラッグ、ズームといった操作は、現在Claudeにとって課題となっています。開発者にはリスクの低いタスクから探索を始めることを推奨します。また、コンピューター使用はスパムや誤情報、詐欺などのよく知られた脅威に対して新たなベクトルを提供する可能性が

あるため、安全な展開を促進するために積極的なアプローチを取っています。コンピューター使用がどのように利用されているか、また被害が発生しているかどうかを特定できる新しい分類器を開発しました。この新しいスキルの背後にある研究プロセスと、安全対策について詳しくは、「コンピューター使用の開発」に関する投稿をご覧ください。

これからの展望

この技術の初期段階の展開から学ぶことで、AIシステムの可能性と影響をよりよく理解することができます。

新しいモデルと、コンピューター使用のパブリックベータ版を試してみて、ぜひフィードバックをお寄せください。これらの進展が、Claudeとの新しい仕事の仕方を広げることになると信じており、皆さんがどんなものを作り出すのか楽しみにしています。

【参考】モデルカード追記： Claude 3.5 Haikuとアップグレード版Claude 3.5 Sonnet

https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf

コンピュータ使用モデルの開発

2024年10月23日
7分で読める

Claudeがコンピュータを使用できるようになりました。最新バージョンのClaude 3.5 Sonnetは、適切なソフトウェア設定を通じて実行されると、ユーザーのコマンドに従ってコンピュータの画面上でカーソルを動かし、関連する場所をクリックし、仮想キーボードを通じて情報を入力することができます。これは、人々が自分のコンピュータを操作する方法をエミュレートするものです。

私たちは、このスキル（現在はパブリックベータ版で提供中）がAIの進歩における重要なブレークスルーを示していると考えています。以下では、コンピュータ使用モデルの開発と、それを安全にするための研究から得られた洞察を共有します。

なぜコンピュータの使用が重要か？

この新しい能力はなぜ重要なのでしょうか？現代の多くの作業はコンピュータを通じて行われます。AIが人々と同じ方法でコンピュータソフトウェアと直接やり取りできるようにすることで、現在のAIアシスタントでは実現できない多くのアプリケーションが可能になります。

ここ数年で、強力なAIの開発において多くの重要なマイルストーンが達成されました。たとえば、複雑な論理推論を行う能力や、画像を見て理解する能力です。次のフロンティアは、コンピュータの使用です。特注のツールを介してやり取りするのではなく、指示された任意のソフトウェアを使用できるAIモデルを作ることが目標です。

研究プロセス

これまでのツール使用とマルチモーダル能力に関する研究が、この新しいコンピュータ使用スキルの基盤となりました。コンピュータを操作するには、画像（この場合はコンピュータ画面の画像）を見て解釈する能力が必要です。また、画面に表示されている内容に応じて、特定の操作をいつどのように実行するかを推論する必要があります。これらの能力を組み合わせ、Claudeに画面上で何が起きているかを解釈させ、その後に利用可能なソフトウェアツールを使ってタスクを遂行する訓練を行いました。

開発者がClaudeにコンピュータソフトウェアを使用するよう指示し、必要なアクセス権を与えると、Claudeはユーザーに見えるスクリーンショットを確認し、カーソルを正しい場所でクリックするために、縦横に何ピクセル動かす必要があるかをカウントします。Claudeにピクセルを正確にカウントさせることは重要でした。このスキルがなければ、マウスのコマンドを正しく実行するのが難しくなります。これは、モデルが「バナナという単語にAはいくつある？」といった一見単純な質問に苦戦するのと似ています。

簡単なソフトウェア（電卓やテキストエディタなど）での訓練を通じて、Claudeが驚くほど早く汎用化したことに私たちは驚きました。（安全上の理由から、訓練中にモデルがインターネットにアクセスすることは許可しませんでした。）Claudeの他のスキルと組み合わせることで、この訓練により、ユーザーの書いたプロンプトを論理的なステップに変換し、その後コンピュータ上でアクションを実行するという驚異的な能力を獲得しました。障害に直面すると、モデルは自ら修正し、タスクを再試行することさえありました。

初期のブレークスルーを達成した後は、その後の進歩は急速に進みましたが、そこに至るまでには多くの試行錯誤が必要でした。私たちの研究者の中には、コンピュータ使用の開発が、AI研究を始めたときに思い描いていた「理想化された」AI研究のプロセスに近いと感じた者もいました。つまり、進歩が見られるまで、絶えず繰り返し実行し、修正を加えていくということです。

その研究は実を結びました。現在、Claudeは画面を見て、その反応でアクションを取るという点で、コンピュータを人間と同じように使用するモデルとしては最先端です。開発者がモデルにコンピュータを使用させようとした試みを評価するために作られた評価テスト「OSWorld」において、Claudeは現在14.9%のスコアを取得しています。これは人間のスキル（一般的には70-75%）にはほど遠いですが、同じカテゴリでの次点のAIモデルが獲得した7.7%を大きく上回っています。

コンピュータ使用の安全性の確保

AIの進歩には常に新たな安全性の課題が伴います。コンピュータ使用は、基本的に既存の認知スキルをAIシステムが適用するための障壁を下げるものであり、そのスキル自体を根本的に向上させるわけではないため、コンピュータ使用に関連する主な懸念は、将来のリスクよりも現在のリスクに焦点を当てています。これを確認するため、当社の「責任ある拡張ポリシー」で概説されているような最前線の脅威に対して、コンピュータ使用がリスクを高めるかどうかを評価しました。その結果、新しいコンピュータ使用スキルを含む更新版のClaude 3.5 Sonnetは、AI安全性レベル2に留まり、現行の安全・セキュリティ対策を超える追加の措置を必要としないことが確認されました。

将来のモデルが、AI安全性レベル3または4の保護策を必要とする場合（それらが壊滅的なリスクをもたらす場合）、コンピュータ使用がそのリスクを悪化させる可能性があります。現在のところ、モデルがAI安全性レベル2の保護策を必要とする段階でコンピュータ使用を導入する方が良いと判断しています。これにより、リスクが高まる前に、安全性に関する問題に取り組み始めることができ、リスクがより深刻になる段階のモデルにコンピュータ使用機能を初めて追加することを避けることができます。

この精神に基づき、当社のTrust & Safety（信頼と安全）チームは、新しいコンピュータ使用モデルの潜在的な脆弱性を特定するために広範な分析を行いました。彼らが特定した懸念の1つは「プロンプトインジェクション」です。これは、AIモデルに悪意のある指示を送り、モデルが事前の指示を無効にしたり、ユーザーの元の意図から逸脱する意図しない行動を行わせるサイバー攻撃の一種です。Claudeはインターネットに接続されたコンピュータのスクリーンショットを解釈できるため、プロンプトインジェクション攻撃を含むコンテンツにさらされる可能性があります。

パブリックベータ版でClaudeのコンピュータ使用を試しているユーザーは、このようなリスクを最小限に抑えるための適切な予防策を講じる必要があります。開発者向けのリソースとして、私たちはリファレンス実装でさらなるガイダンスを提供しています。

他のAI能力と同様、Claudeのコンピュータスキルが意図的に悪用される可能性もあります。私たちのチームは、このような悪用を識別し、軽減する

ための分類器や他の方法を開発しました。2024年の米国大統領選挙が控えていることもあり、選挙プロセスへの信頼を損なうと見なされる悪用の試みに対して特に警戒しています。コンピュータ使用は、現行の能力に比べてリスクを高めるような規模で運用されるほど高度ではありませんが、Claudeが選挙関連の活動に従事するよう求められた場合を監視するための措置を講じ、ソーシャルメディア上でのコンテンツ作成や投稿、Webドメインの登録、政府のWebサイトとのやり取りなどの活動からClaudeを遠ざけるためのシステムを導入しました。パブリックベータ期間中は、Claudeの能力と責任ある使用のバランスを取るために、これらの安全対策を継続的に評価し、改良していきます。

当社の標準的なデータプライバシーアプローチと一致して、ユーザーが提供したデータ（Claudeが受け取ったスクリーンショットを含む）で、生成AIモデルをトレーニングすることはデフォルトで行っていません。

コンピュータ使用の未来

コンピュータ使用は、AI開発におけるまったく新しいアプローチです。これまで、LLM開発者はツールをモデルに合わせて設計し、AIが特定のタスクを完了するためのカスタム環境を作成してきました。しかし今では、モデルをツールに合わせることができるようになりました。Claudeは、私たちが日常的に使っているコンピュータ環境に適応できます。私たちの目標は、Claudeが既存のコンピュータソフトウェアを人間と同じように使用できるようにすることです。

まだやるべきことはたくさんあります。Claudeのコンピュータ使用は、現時点で最先端ではありますが、依然として動作が遅く、しばしばエラーが発生します。たとえば、コンピュータ上で人々が日常的に行う多くの操作（ドラッグ、ズームなど）は、Claudeにはまだ試みることができません。Claudeの画面ビューは「フリップブック」のようなものであり、動画のような詳細なストリームを観察するのではなく、スクリーンショットを連続して取得してつなぎ合わせるため、短時間で表示されるアクションや通知を見逃すことがあります。

本日のローンチのためにコンピュータ使用のデモを録画していた際、いくつかの面白いエラーに遭遇しました。たとえば、Claudeが誤って長時間のスクリーン録画を停止してしまい、すべての映像が失われてしまったり、コーディングデモ中に突然作業を中断し、イエローストーン国立公園の写真を閲覧し始めたりしました。

今後、コンピュータ使用は、より迅速で信頼性が高く、ユーザーが完了したいタスクに対してより役立つものになると予想しています。また、ソフトウェア開発経験が少ない人でも簡単に実装できるようになるでしょう。各段階で、研究者は安全チームと密接に連携し、Claudeの新しい能力に適切な安全対策が伴うようにしていきます。

パブリックベータ版でコンピュータ使用を試す開発者には、フィードバックフォームを通じてご意見をお寄せいただければ、研究者がこの新しい機能の有用性と安全性をさらに向上させることができます。

Claude 3.5 SonnetによるPC操作のデモ

業務自動化のためのコンピュータ使用

こんにちは、私はSamで、Anthropicの研究者の一人です。
コンピュータ使用は、しばらくの間重要になると感じていた分野です。
今日は、このコンピュータ使用の非常に初期のバージョンについてお話しし、それがどのような場面で役立つと考えているかを、代表的な例を交えて説明します。
今日は簡単なデモを行います。

この架空のデモでは、お客様、つまりAnt Equipment Companyが、私たちにベンダーリクエストフォームを記入するよう依頼してきました。このフォームを記入するために必要なデータは、私のコンピュータ内の様々な場所に散らばっています。私たちがすることは、まずClaudeにスプレッドシートを確認させ、Ant Equipmentがそこにあるかどうかを調べます。もしなければ、CRM（顧客関係管理システム）に移動して、追加の情報を探すよう指示します。

Claudeがデータを取得したら、フォームにその情報を記入してもらい、ベンダーフォームに情報を転送します。最初に行うのは、Claudeが私の画面のスクリーンショットを撮り始め、Ant Equipment Companyが実際にはスプレッドシートに存在しないことをすぐに認識することです。次に、ClaudeはCRMに切り替えて、探している会社を検索します。幸運にも検索にヒットしました。

Claudeはその後、ページをスクロールしながら、フォームに記入するために必要なすべての情報を探します。そして、私が何もしなくても、Claudeは自律的にその情報をフォームに転送し始め、ステップを踏んで、必要なすべての情報を記入し、フォームを送信します。

この例は、人々が日常的に行っている多くの雑務を代表するものです。これがAPIで利用可能です。私たちは皆さんにこれを試していただくことにとても興奮しています。今後数ヶ月でさらに多くの改善が期待できるでしょう。

コーディングのためのコンピュータ使用

アップグレードされたClaude 3.5 Sonnetでは、新しい機能として「コンピュータ使用」をベータ版で導入しています。開発者は、Claudeに画面を見て、カーソルを動かし、クリックし、テキストを入力するなど、人間と同じようにコンピュータを使用させることができるようになりました。

画期的な機能ではありますが、コンピュータ使用はまだ実験段階であり、時には煩雑でエラーが発生することもあります。開発者からのフィードバックを得るために、早期にリリースしています。

このデモでは、Claudeがテーマ付きウェブサイトを作成し、コードを生成し、サーバーを起動し、自身のミスを修正します。

ここで表示されているコンピュータ操作はすべてClaudeが生成しています。

このデモは、管理された環境で録画されており、主な能力を強調するために一部のサポートインフラストラクチャは簡略化されています。

複数のタスクを組み合わせて作業を進めるためのコンピュータ使用

このデモでは、Claudeがウェブ検索を行い、ネイティブアプリケーションを使用し、得られた情報を元に計画を立てるというマルチステップのタスクを編成します。

ここで表示されているすべてのコンピュータ操作は、Claudeが生成しています。このデモは管理された環境で録画されており、主要な機能を強調するために一部の補助インフラが簡略化されています。