【ざっくりまとめ】AnthropicがClaude 3.5 SonnetのアップデートとClaude 3.5 Haiku、コンピューター操作機能をリリース

2024年10月23日 01:55

Anthropic社がClaude 3.5シリーズのアップデートと、コンピューター使用機能のリリースを発表したので簡単に概要を紹介します！

以下の記事を要約したものです
Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku
https://www.anthropic.com/news/3-5-models-and-computer-use

1. Claude 3.5 SonnetとHaikuの登場

Anthropicは、アップグレードされたClaude 3.5 Sonnetと新しいモデルClaude 3.5 Haikuを発表しました。Claude 3.5 Sonnetは前モデルから全面的に改良され、特にコーディング能力が大幅に向上しています。Claude 3.5 Haikuは、前世代のHaikuと同等のコストと速度で、以前の大規模モデルClaude 3 Opusに匹敵するパフォーマンスを多くの評価で実現しています。

1-1. Claude 3.5 Sonnet：業界トップレベルのソフトウェアエンジニアリングスキル

アップデートされたClaude 3.5 Sonnetは、業界ベンチマークで広範な改善を示し、特にエージェントコーディングとツール使用タスクにおいて大きな成果を上げています。コーディングにおいては、SWE-bench Verifiedでのパフォーマンスが33.4%から49.0%に向上し、OpenAI o1-previewなどの推論モデルや、エージェントコーディング用に設計された特殊システムを含む、公開されているすべてのモデルよりも高いスコアを記録しました。また、エージェントツール使用タスクであるTAU-benchのパフォーマンスも向上し、小売分野では62.6%から69.2%に、より難易度の高い航空分野では36.0%から46.0%に向上しています。これらの進化は、前モデルと同じ価格と速度で提供されます。

1-2. Claude 3.5 Haiku：手頃な価格と速度で最先端技術を実現

Claude 3.5 Haikuは、Anthropicの最速モデルの次世代版です。Claude 3 Haikuと同等のコストと速度で、すべてのスキルセットが向上し、前世代の最大モデルであるClaude 3 Opusさえも多くの知能ベンチマークで上回っています。特にコーディングタスクに優れており、例えばSWE-bench Verifiedで40.6%のスコアを記録し、元のClaude 3.5 SonnetやGPT-4oを含む、公開されている最先端モデルを使用する多くのエージェントよりも優れたパフォーマンスを示しています。低レイテンシ、改善された指示追従、より正確なツール使用により、ユーザー向け製品、特殊なサブエージェントタスク、購入履歴、価格、在庫記録などの大量データからのパーソナライズされたエクスペリエンスの生成に最適です。

2. 革新的なコンピュータ操作機能

今回最も注目すべき点は、パブリックベータ版として公開された「コンピュータ操作」機能です。開発者はAPIを通じて、Claudeに画面を見てカーソルを動かし、ボタンをクリックし、テキストを入力させるといった、人間と同じようにコンピュータを使用させることができます。Claude 3.5 Sonnetは、この機能をパブリックベータで提供する初の最先端AIモデルです。現段階では実験的な機能であり、ぎこちなくエラーが発生しやすい場合もありますが、開発者からのフィードバックを得て、今後急速に改善していく予定です。

2-1. コンピュータ操作機能の活用事例

Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyなどの企業は既にこの機能の可能性を探求し、数十、時には数百ステップを要するタスクを実行しています。例えば、ReplitはClaude 3.5 Sonnetのコンピュータ操作とUIナビゲーション機能を活用し、Replit Agent製品のアプリ構築時の評価を行う主要機能を開発しています。

3. 責任あるコンピュータ操作の実現に向けて

Anthropicは、個々のタスクを支援するための特定のツールを作成する代わりに、人間向けに設計された幅広い標準ツールやソフトウェアプログラムを使用できる一般的なコンピュータスキルをClaudeに教えています。開発者はこの新しい機能を使用して、反復的なプロセスを自動化し、ソフトウェアを構築およびテストし、調査などのオープンエンドのタスクを実行できます。OSWorldのスクリーンショットのみのカテゴリでは、Claude 3.5 Sonnetは14.9%のスコアを獲得し、2番目に優れたAIシステムの7.8%を大きく上回りました。より多くのステップを実行できる場合は、22.0%のスコアを記録しました。

まとめ: 今後の展望

初期段階にあるこの技術の初期導入から学ぶことで、ますます高性能になるAIシステムの可能性と影響の両方をより深く理解することができます。これらの開発により、Claudeとの連携方法に新たな可能性が開かれると期待されています。Claude 3.5 Haikuは今月後半に、AnthropicのAPI、Amazon Bedrock、Google CloudのVertex AIでテキストのみのモデルとして提供され、その後画像入力機能も追加される予定です。コンピュータ操作機能は現在ベータ版であり、今後更なる改善が期待されます。

いいなと思ったら応援しよう！

よろしければ活動の応援をお願いします！いただいたチップは今後の記事で解説するツールなどを購入する資金にさせていただきます🙇‍♂️