見出し画像

Anthropicの新モデル「Claude 3.5 Sonnet」ほとんどのベンチマークで GPT-4o を上回る評価を獲得

Anthropicが新たに発表した「Claude 3.5 Sonnet」は、その性能の高さで注目を集めています。このミッドティアモデルは、競合他社を凌駕し、同社の現行トップモデル「Claude 3 Opus」をも上回る評価を獲得しています。

Claude 3.5 Sonnetは現在、Claude.aiやClaudeのiOSアプリで無料で利用可能で、ProおよびTeamプランの加入者にはより高い使用制限が提供されています。また、Anthropic API、Amazon Bedrock、およびGoogle CloudのVertex AIを通じてアクセス可能です。料金は100万入力トークンあたり3ドル、100万出力トークンあたり15ドルで、200Kトークンのコンテキストウィンドウを備えています。

このモデルは、大学院レベルの推論(GPQA)、学部レベルの知識(MMLU)、およびコーディングの能力(HumanEval)において新たな業界基準を打ち立てており、微妙なニュアンスやユーモア、複雑な指示の理解においても優れた能力を示しています。特に、質の高い自然なトーンでのコンテンツ生成において際立っています。

Claude 3.5 Sonnetは、Claude 3 Opusの2倍の速度で動作し、複雑なタスク、例えば文脈に依存するカスタマーサポートや多段階のワークフローのオーケストレーションに適しています。内部エージェンティックコーディング評価においては、64%の問題を解決し、Claude 3 Opusの38%を大きく上回りました。

さらに、視覚能力の向上も注目されています。標準的な視覚ベンチマークにおいてClaude 3 Opusを上回る成果を示し、特にチャートやグラフの解釈などの視覚的推論を必要とするタスクでのパフォーマンスが向上しました。また、不完全な画像からのテキスト転写も正確に行えるため、小売、物流、金融サービスなどの分野での利用が期待されています。

モデルのリリースに伴い、Anthropicは新機能「Artifacts」も導入しました。Claude.aiで提供されるこの機能により、ユーザーはAIが生成したコンテンツをリアルタイムで閲覧、編集、発展させることができ、より協力的な作業環境が整います。

Claude 3.5 Sonnetは、性能向上にもかかわらず、安全性とプライバシーへの配慮を継続しています。同社は、「モデルは厳格なテストを受け、誤用を減らすために訓練されています」と述べており、英国のAI安全機構(UK AISI)や子ども保護の専門家であるThornの協力を得て、モデルの安全性の検証と改良を進めてきました。

さらに、Anthropicはユーザープライバシーにも重点を置いています。「明示的な許可がない限り、ユーザーが提供したデータで生成モデルを訓練することはありません。これまでに、顧客やユーザーが提供したデータを使用して生成モデルを訓練したことはありません」と同社は強調しています。

今後、Claude 3.5 Sonnetのファミリーとして「Claude 3.5 Haiku」や「Claude 3.5 Opus」が年内にリリースされる予定であり、さらに企業アプリケーションとの統合や、よりパーソナライズされたユーザー体験を提供するためのメモリ機能など、新たなモダリティや機能の開発も進められています。

詳細内容は、Anthropicが提供する元記事を参照してください。

【引用元】

【読み上げ】
VOICEVOX 四国めたん/No.7

この記事が気に入ったらサポートをしてみませんか?