Claude 3.7 Sonnet と Claude Code の概要

2025年2月25日 07:00

以下の記事が面白かったので、簡単にまとめました。

・Claude 3.7 Sonnet and Claude Code

1. Claude 3.7 Sonnet と Claude Code の概要

本日 (2025年2月24日)、Anthropicはこれまでで最もインテリジェントであり、初のハイブリッドReasoningモデルである「Claude 3.7 Sonnet」を発表しました。「Claude 3.7 Sonnet」は、ほぼ瞬時の応答や、ユーザーに可視化される段階的な思考を生成することができます。API ユーザーは、モデルが思考できる時間を細かく制御することもできます。

「Claude 3.7 Sonnet」は、コーディングとフロントエンドWeb開発において特に大きな改善を示しています。モデルとともに、エージェントコーディング用のコマンドラインツールである「Claude Code」も導入しています。「Claude Code」は限定的な研究プレビューとして利用可能で、開発者はターミナルから直接「Claude」に重要なエンジニアリングタスクを委任できます。

「Claude 3.7 Sonnet」は、「Free」「Pro」「Team」「Enterprise」を含むすべてのClaudeプラン、および「Anthropic API」「Amazon Bedrock」「Google Cloud Vertex AI」で利用できるようになりました。「拡張思考モード」は、無料版を除くすべてで利用できます。

「標準」および「拡張思考モード」の両方において、「Claude 3.7 Sonnet」の価格は前モデルと同じで、入力トークン100万個あたり3ドル、出力トークン100万個あたり15ドルです (思考トークンを含む)。

2. Claude 3.7 Sonet

「Claude 3.7 Sonnet」は、他のReasoningモデルとは異なる哲学で開発されました。人間が1つの脳で素早い反応と深い思考の両方を行うのと同じように、Reasoningは完全に独立したモデルではなく、フロンティアモデルの統合された機能であるべきだと考えています。この統合されたアプローチにより、ユーザーにとってよりシームレスなエクスペリエンスも実現されます。

「Claude 3.7 Sonnet」は、この哲学をいくつかの方法で体現しています。まず、「Claude 3.7 Sonnet」は通常のLLM とReasoningモデルの両方を1つにまとめたものです。モデルに通常どおり回答させたい場合と、回答する前に長く考えさせたい場合を選択できます。「標準モード」では、「Claude 3.7 Sonnet 」は「Claude 3.5 Sonnet」のアップグレード版に相当します。「拡張思考モード」では、回答前に自己反映されるため、数学、物理学、指示、コーディング、その他多くのタスクでの性能が向上します。通常、モデルのプロンプトは両方のモードで同様に機能することがわかります。

2番目に、APIを介して「Claude 3.7 Sonnet」を使用する場合、ユーザーは思考の予算も制御できます。つまり、出力制限の128Kトークンまでの任意のN値に対して、Nトークン以下で考えるように「Claude」に指示できます。これにより、速度 (およびコスト) と回答の品質をトレードオフできます。

3番目に、Reasoningモデルの開発において、数学やコンピュータサイエンスの競技問題に対する最適化をやや控え、代わりに企業が実際に LLM を使用する方法をよりよく反映する現実世界のタスクに重点を移しました。

初期のテストでは、全般的に「Claude」のコーディング能力が優れていることが実証されました。「Cursor」は、「Claude」が複雑なコードベースの処理から高度なツールの使用まで、さまざまな分野で大幅な改善を遂げ、実際のコーディングタスクで再びクラス最高であると評価しました。「Cognition」は、コード変更の計画とフルスタック更新の処理において、他のどのモデルよりもはるかに優れていると評価しました。「Vercel」は、複雑なエージェントワークフローにおける「Claude」の並外れた精度を強調し、「Replit」は、他のモデルが行き詰まるような、洗練されたWebアプリやダッシュボードをゼロから構築するために「Claude」を導入することに成功しました。「Canva」の評価では、「Claude」は優れたデザインテイストを備え、エラーを大幅に削減した、製品対応のコードを一貫して生成しました。

3. Claude Code

2024年6月以来、「Sonnet」は世界中の開発者に好まれるモデルとなっています。本日、限定的な研究プレビューで、初のエージェントコーディングツールである「Claude Code」を導入し、開発者の力をさらに強化します。

「Claude Code」は、コードの検索と読み取り、ファイルの編集、テストの作成と実行、GitHub へのコードのコミットとプッシュ、コマンドラインツールの使用などができるアクティブなコラボレータであり、あらゆるステップでユーザーを最新の状態に保ちます。

「Claude Code」は初期の製品ですが、特にテスト駆動開発、複雑な問題のデバッグ、大規模なリファクタリングにおいて、すでにチームにとって欠かせないものとなっています。初期のテストでは、「Claude Code」は通常は手作業で45分以上かかるタスクを1回のパスで完了し、開発時間とオーバーヘッドを削減しました。

今後数週間で、使用状況に基づいて継続的に改善していく予定です。「Tool Calling」の信頼性の向上、長時間実行コマンドのサポートの追加、アプリ内レンダリングの改善、Claude 自身の機能に対する理解の拡大などです。

「Claude Code」の目標は、開発者がClaudeをコーディングにどのように使用しているかをより深く理解し、将来のモデル改善に役立てることです。このプレビューに参加すると、「Claude」の構築と改善に使用しているのと同じ強力なツールにアクセスできるようになり、フィードバックが「Claude」の将来に直接影響します。

4. Claudeとコードベースで作業

「Claude.ai」でのコーディングエクスペリエンスも向上しました。GitHub統合がすべてのClaudeプランで利用できるようになり、開発者はコードリポジトリを「Claude」に直接接続できるようになりました。

「Claude 3.7 Sonnet」は、これまでで最高のコーディングモデルです。個人、仕事、オープンソースプロジェクトをより深く理解することで、最も重要な GitHubプロジェクト全体でバグの修正、機能の開発、ドキュメントの作成を行うための強力なパートナーになります。

5. 責任あるアーキテクチャ

Anthropicは、外部の専門家と協力して、「Claude 3.7 Sonnet」の広範なテストと評価を実施し、セキュリティ、安全性、信頼性の基準を満たしていることを確認しました。また、「Claude 3.7 Sonnet」では、有害なリクエストと無害なリクエストをより細かく区別し、以前のバージョンと比較して不要な拒否を45%削減しました。

このリリースのシステムカードでは、いくつかのカテゴリで新しい安全性の結果を取り上げ、他のAIラボや研究者が自分の仕事に適用できる Responsible Scaling Policy 評価の詳細な内訳を提供しています。また、このカードでは、コンピュータの使用に伴う新たなリスク、特にプロンプトインジェクション攻撃についても取り上げ、これらの脆弱性を評価し、「Claude」がそれらの脆弱性に対抗して軽減できるように学習する方法についても説明しています。さらに、Reasoningモデルの潜在的な安全性の利点、つまりモデルがどのように決定を下すかを理解する能力と、モデルの推論が本当に信頼できるかどうかについても検証しています。詳細については、システムカードを参照してください。

6. 将来に向けて

「Claude 3.7 Sonnet」と「Claude Code」は、人間の能力を真に強化できる AIシステムに向けた重要な一歩を踏み出しました。深く推論し、自律的に作業し、効果的に協力する能力により、AIが人間の達成できるものを豊かにし、拡大する未来に近づきます。