見出し画像

Claude 3.5 Sonet (new) と Claude 3.5 Haiku と computer use の概要

以下の記事が面白かったので、簡単にまとめました。

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku


1. はじめに

本日 (10月22日)、「Claude 3.5 Sonnet」と「Claude 3.5 Haiku」がアップグレードされました。アップグレードされた「Claude 3.5 Sonnet」 は、前モデルに比べて全面的に改善されており、特にコーディングにおいて大幅な向上が見られました。コーディングは、すでに業界をリードしていた分野です。「Claude 3.5 Haiku」は、多くの評価において、以前の最大モデルである「Claude 3 Opus」の性能に匹敵し、前世代の「Haiku」と同じコストと速度を実現しています。

また、パブリックベータ版では画期的な新機能である「computer use」も導入しています。APIで本日から利用可能になり、開発者は「Claude」に、画面を見たり、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力したりといった、人間と同じようにコンピュータを使用するよう指示できます。「Claude 3.5 Sonnet」は、パブリックベータ版で「computer use」を提供する最初の最先端の AI モデルです。まだ実験段階であり、扱いにくく、エラーが発生しやすい場合があります。開発者からのフィードバックを得るために「computer use」を早期にリリースしており、時間の経過とともに機能が急速に改善されることを期待しています。

「Asana」「Canva」「Cognition」「DoorDash」「Replit」「The Browser Company」はすでにこれらの可能性を模索し始めており、完了までに数十、場合によっては数百のステップを必要とするタスクを実行しています。たとえば、「Replit」は、「Claude 3.5 Sonnet」の「computer use」とUIナビゲーションの機能を使用して、「Replit Agent」製品用に構築されているアプリを評価する重要な機能を開発しています。

アップグレードされた「Claude 3.5 Sonnet」は、すべてのユーザーが利用できるようになりました。本日より、開発者は「Anthropic API」「Amazon Bedrock」「Google Cloud Vertex AI」 で「computer use」を使用できます。新しい「Claude 3.5 Haiku」は今月後半にリリースされる予定です。

2. Claude 3.5 Sonet (new)

アップデートされた「Claude 3.5 Sonnet」は、業界ベンチマークで幅広い改善を示しており、特にエージェントコーディングとツール使用タスクで大きな成果を上げています。コーディングでは、「SWE-bench Verified」での性能が 33.4% から 49.0% に向上し、「OpenAI o1-preview」などの推論モデルやエージェントコーディング用に設計された専用システムなど、公開されているすべてのモデルよりも高いスコアを獲得しています。また、エージェントツール使用タスクである「TAU-bench」での性能も、小売分野では 62.6% から 69.2% に、より困難な航空会社分野では 36.0% から 46.0% に向上しています。新しい「Claude 3.5 Sonnet」は、これらの進歩を前モデルと同じ価格と速度で提供します。

初期の顧客フィードバックによると、アップグレードされた「Claude 3.5 Sonnet」は AI を活用したコーディングの大きな飛躍を表しています。DevSecOpsタスク用にこのモデルをテストした「GitLab」は、レイテンシを追加することなく、より強力な推論 (ユースケース全体で最大 10%) を実現し、マルチステップのソフトウェア開発プロセスを強化するのに理想的な選択肢であることを確認しました。「Cognition」は、自律的な AI 評価に新しい 「Claude 3.5 Sonnet」を使用しており、以前のバージョンと比較して、コーディング、計画、問題解決が大幅に改善されました。「The Browser Company 」は、Webベースのワークフローを自動化するためにこのモデルを使用した結果、「Claude 3.5 Sonnet」がこれまでテストしたすべてのモデルよりも優れていることを指摘しました。

外部の専門家との継続的な提携の一環として、新しい「Claude 3.5 Sonnet」の共同導入前テストが、「US AISI」 (US AI Safety Institute) と英国安全研究所 「UK AISI」(UK Safety Institute) によって実施されました。

また、アップグレードされた「Claude 3.5 Sonnet」の壊滅的なリスクも評価し、Anthropicの「Responsible Scaling Policy」に概説されている」「ASL-2 標準」がこのモデルに引き続き適切であることがわかりました。

3. Claude 3.5 Haiku (new)

Claude 3.5 Haiku」は、最速モデルの次世代モデルです。「Claude 3.5 Haiku」は、「Claude 3 Haiku」と同じコストと速度で、すべてのスキルセットが向上し、多くのインテリジェンスベンチマークで前世代の最大モデルである「Claude 3 Opus」をも上回ります。「Claude 3.5 Haiku」は、特にコーディング タスクに優れています。たとえば、「SWE-bench Verified」で 40.6% のスコアを獲得し、オリジナルの「Claude 3.5 Sonnet」や「GPT-4o」など、公開されている最先端のモデルを使用する多くのエージェントよりも優れています。

低レイテンシ、改善された指示の追従性、より正確なツールの使用により、「Claude 3.5 Haiku」は、ユーザー向け製品、特殊なサブエージェントタスク、購入履歴、価格、在庫記録などの膨大なデータからのパーソナライズされたエクスペリエンスの生成に最適です。

「Claude 3.5 Haiku」は、今月後半に「Anthropic API」「Amazon Bedrock」「Google Cloud Vertex AI」で利用可能になります。最初はテキストのみのモデルとして提供され、その後画像入力も可能になります。

4. computer use

「use computer」に関しては、根本的に新しいことを試みています。「Claude」が個々のタスクを完了するのを支援するための特定のツールを作成するのではなく、一般的なコンピュータースキルを教えることで、人間向けに設計されたさまざまな標準ツールやソフトウェア プログラムを使用できるようにします。開発者は、この新しい機能を使用して、反復的なプロセスを自動化し、ソフトウェアを構築およびテストし研究などの制限のないタスクを実行できます。

これらの一般的なスキルを可能にするために、Anthropicは「Claude」がコンピュータのインターフェースを認識して操作できるようにするAPIを構築しました。開発者はこのAPIを統合して、「Claude」が指示 (「自分のコンピューターとオンラインのデータを使用してこのフォームに入力してください」など) をコンピュータのコマンド (スプレッドシートを確認する、カーソルを動かして Webブラウザを開く、関連する Web ページに移動する、それらのページのデータを使用してフォームに入力するなど) に変換できるようにすることができます。AIモデルが人間と同じようにコンピュータを使用する能力を評価する「OSWorld」では、「Claude 3.5 Sonnet」はスクリーンショットのみのカテゴリで 14.9% のスコアを獲得しました。これは、次に優れた AI システムの 7.8% のスコアを大幅に上回ります。タスクを完了するためにさらに手順を踏むと、「Claude」のスコアは 22.0% になりました。

この能力は今後数か月で急速に向上すると期待していますが、「Claude」の現在の「computer use」は不完全です。スクロール、ドラッグ、ズームなど、人間が簡単に実行できる操作のいくつかは、現在「Claude」にとっては課題となっており、開発者にはリスクの低いタスクから検討を始めることを推奨しています。「computer use」は、スパム、誤報、詐欺などのより身近な脅威の新たな媒介となる可能性があるため、安全な導入を促進するために積極的なアプローチをとっています。「computer use」がいつ行われているか、また危害が発生しているかどうかを識別できる新しい分類子を開発しました。この新しいスキルの背後にある研究プロセスと安全対策のさらなる議論については、「developing computer use」で詳しく読むことができます。

関連



この記事が気に入ったらサポートをしてみませんか?