見出し画像

世界初のハイブリッド推論モデル「Claude 3.7」が降臨!DeepSeek R1に決定的な打撃を与える

目次


ポイント

  • Anthropicが「Claude 3.7 Sonnet」を発表

    • 初の ハイブリッド推論モデル で、リアルタイム応答と深い思考の両方を実現

    • 数学・プログラミング能力が 前世代比10%以上向上

  • AIコーディング能力の飛躍的向上

    • 最新のSWE-bench評価で 70.3% の高得点を記録

    • 新ツール「Claude Code」 を発表し、開発作業を大幅に効率化

  • 競合モデルとの比較

    • o3-mini・DeepSeek R1を圧倒、Grok 3と同レベル

    • 数学・視覚推論ではGrok 3 Betaが優位

  • 「Claude Code」による開発支援

    • GitHubと統合し、コード編集・テスト・デバッグを支援

    • 人間が 45分かかる作業を即時完了 する能力を持つ

  • AIエージェント機能の強化

    • 「行動拡張」機能で 仮想マウス操作やキーボード入力 が可能

    • 『ポケモン 赤』で3人のジムリーダーに勝利 するレベルの進化

  • 無料体験可能 & API提供

    • Claude 3.7 Sonnetは Web / iOS / Androidで無料利用可

    • 開発者向けに Anthropic API、Amazon Bedrock、Google Cloudから提供

  • AI推論の新たな進化

    • 「シリアル・並列テスト」により計算スケーリングを最適化

    • GPQAテストで総合スコア84.8%、物理分野で96.5%を記録

  • AIの直感的な創造力が向上

    • インタラクティブなビジュアルやタイムマシンを即時生成

    • ユーザーの意図を予測し、新しい方法を自主的に考案

Claude 3.7 Sonnetの登場によって、LLM(大規模言語モデル)の競争がさらに激化 し、AIの実用性が大きく前進した。

本文

ついにAnthropicが初のハイブリッド推論モデル「Claude 3.7 Sonnet」を発表した。思考の拡張において最強のモデルと称されるこの新モデルは、最新のコーディングテストでo3-miniやDeepSeek R1を圧倒し、AIコーディングの王者として登場した。

半年の沈黙を破り、Anthropicが大技を投入

Anthropicはついに、初のハイブリッド推論モデル「Claude 3.7 Sonnet」を発表した。 これはClaudeシリーズの中で最も高度な知能を持つモデルであり、ほぼリアルタイムでの応答が可能なだけでなく、拡張可能な段階的な思考を実行できる。

簡単に言えば、「1つのモデルに2つの思考モード」が搭載されている。

例えば、ゲーム理論の数学問題である「モンティ・ホール問題」を解きたい場合、Claude 3.7 Sonnetを使用し、「Extended」モードを選択すると、詳細なチェイン・オブ・ソート(CoT)プロセスを提示し、わずか52秒で解答を出す。

最も重要なのは、Claude 3.7 Sonnetが現在すべてのユーザーに無料で提供されている点である。ただし、「Extended Thinking」モードはまだ正式にリリースされていない。

数学・プログラミング能力が飛躍的に向上

複数のベンチマークテストにおいて、「Extended Thinking」モードを有効にしたClaude 3.7 Sonnetは、数学、物理、指令実行、プログラミングの分野でSOTA(最先端)を更新した。

前世代のClaude 3.5 Sonnetと比較すると、数学およびコーディング能力が10%以上向上している。

特に、Claude 3.7 Sonnet(64k Extended Thinking)は、o3-miniやDeepSeek R1を圧倒し、Grok 3と肩を並べるレベルに達している。

APIユーザーはモデルの思考時間を細かく制御できるようになった

「最強のソフトウェアエンジニアAI」としての実力

Claude 3.7 Sonnetは、まさに「最強のソフトウェアエンジニアAI」と言えるだろう。SWE-benchの評価では、驚異の**70.3%**という高得点を記録した。

また、本日、初の「エージェントプログラミング」ツールである「Claude Code(プレビュー版)」も発表された。

Claude Codeは現在、Anthropic社内で不可欠なツールとなっており、初期テストでは、人間が45分かかる作業をClaudeが一回で完了できることが確認されている。

つまり、プロダクトマネージャーが指示を出せば、AIがコードを書いてくれる時代が到来したのだ。

Claude 4の発表こそなかったものの、この突然の一手により、AI業界に新たな衝撃を与えた。

ここ半月の間に、AI分野では歴史的な動きが続いている。

  • 先週「Grok 3」が発表

  • 今週「DeepSeek」が5日連続でオープンソース化

  • 「OpenAI GPT-4.5」も近日中にリリースとの噂

  • そして今回の「Claude 3.7 Sonnet」発表

これにより、大規模言語モデル(LLM)の競争はさらに激化している。

世界初の「ハイブリッド推論」モデルが誕生

Anthropicの公式ブログによると、「Claude 3.7 Sonnet」は同社がこれまでに開発した中で最も知能の高いモデルであり、市場初のハイブリッド推論モデルである。

Claude 3.7 Sonnetは、ほぼ即時の応答を生成することも、または思考プロセスの詳細なステップを段階的に表示することも可能である。これらのステップはユーザーに可視化されており、APIユーザーはモデルの思考時間を細かく制御できる。

また、コーディングやフロントエンドのWeb開発においても、大幅なパフォーマンス向上が見られる。

加えて、Anthropicは「Claude Code」と呼ばれるコマンドラインツールを発表した。これはエージェントプログラミング用のツールで、現時点では限定的なリサーチプレビュー版として提供されている。

このツールにより、開発者はターミナルから直接、大量のエンジニアリングタスクをClaudeに委任することが可能になる。

推論はLLMの総合的な能力

Claude 3.7 Sonnetの設計理念は、市場にある他の推論モデルとは一線を画す。

Anthropicは、人間が一つの脳を使って「素早い反応」と「深い思考」の両方を行うように、推論もまた最先端のAIモデルにおいて統合されるべき能力だと考えている。つまり、「推論」は完全に独立した機能ではなく、モデル全体の一部として組み込まれるべきだというアプローチである。この統一的な手法により、ユーザーはよりスムーズな体験を得ることができる。

Claude 3.7 Sonnetは、この理念を以下の点で体現している。

  • Claude 3.7 Sonnetは単なる言語モデル(LLM)ではなく、推論モデルとしての機能も備えている。

  • ユーザーは、通常の応答を求める場面と、より深い思考を求める場面を選択できる。

  • 標準モードでは、Claude 3.7 SonnetはClaude 3.5 Sonnetのアップグレード版として動作する。

この新モデルの登場により、AI推論の新時代が幕を開けたと言えるだろう。

Extended Thinkingモードの効果

Extended Thinkingモードでは、回答を生成する前に自己反省を行うため、数学、物理、指示の遵守、コーディングなどの多くのタスクにおけるパフォーマンスが向上する。 通常、この2つのモードは、モデルへのプロンプトの効果において類似した結果をもたらす。

APIを通じたClaude 3.7 Sonnetの利用

Claude 3.7 SonnetをAPI経由で使用する場合、ユーザーは「思考の予算」を制御できる。 具体的には、Claudeに対して回答を生成する際に最大Nトークンまで思考するよう指示でき、Nの最大値は128Kトークンの出力制限内となる。 これにより、ユーザーは速度(およびコスト)と回答の品質のバランスを取ることが可能となる。

モデル開発における最適化の方向性

Anthropicは推論モデルの開発において、数学やコンピュータサイエンスの競技問題に対する最適化をやや抑え、その代わりに企業がLLMを実際に活用する現実的なタスクへの対応を重視した。

Claude 3.7 Sonnetは、ソフトウェア開発における現実世界の問題を解決する能力を測るベンチマーク「SWE-bench Verified」で新たなSOTA(State of the Art)を達成した。


また、「TAU-bench」においてもSOTAを更新した。TAU-benchは、AIエージェントの複雑な現実世界のタスクにおけるユーザーおよびツールとのインタラクション能力をテストする評価基準である

上述のように、Claude 3.7 Sonnetはほぼすべての主要ベンチマークにおいて、顕著な性能向上を遂げている。

他のモデルとの比較

最新のGrok 3 Betaモデルと比較すると、Claude 3.7 Sonnet(64K Extended Thinkingモード)は推論能力においてほぼ互角の結果を示した。 ただし、数学や視覚推論の分野ではGrok 3 Betaの方がやや優れている。

また、o3-miniやDeepSeek R1と比較すると、数学以外の分野ではExtended Thinkingモードを有するClaude 3.7 Sonnetが最高スコアを記録した。

Claude 3.7 Sonnetは、タスク指示の遵守、一般的な推論、多モーダル能力、自律的なプログラミングにおいて優れたパフォーマンスを発揮し、特に数学・科学分野ではExtended Thinkingモードによる大幅な向上が見られる。 さらに、従来のベンチマークテストだけでなく、ポケモンゲームのテストにおいても、過去のすべてのモデルを上回る結果を示した。

AIコーディングエージェント:45分のタスクを一度で完了

2024年6月以降、Sonnetシリーズは世界中の開発者にとって最も選ばれるモデルとなっている。 そして本日、Anthropic初のAIコーディングツール Claude Code が誕生した。現在、限定的な研究プレビューとして提供されている。

Claude Codeは、人と積極的に協力しながら、以下のような作業を実行できる。

  • コードの検索・閲覧

  • ファイルの編集

  • テストの作成・実行

  • コードのコミットおよびGitHubへのプッシュ

  • コマンドラインツールの使用

これらの作業を行う際、ユーザーが各ステップで関与できるよう配慮されている。

また、このアップデートにより Claude.ai のコーディング体験も向上 した。 現在、すべてのClaudeプランでGitHub統合がサポートされており、開発者はコードリポジトリを直接Claudeに接続できるようになった。

Claude 3.7 Sonnetは、Anthropic史上最も強力なコーディングモデルであり、個人プロジェクト、業務プロジェクト、オープンソースプロジェクトをより深く理解できる。 その結果、バグ修正、新機能の開発、GitHubドキュメントの作成などにおいて、非常に優れたアシスタントとなる。

早期テストにおける成果

Claude Codeはまだ初期段階だが、Anthropicのチームにとって不可欠なツールとなりつつある。 特に、以下のような場面でその有用性が際立っている。

  • テスト駆動開発(TDD)

  • 複雑なバグのデバッグ

  • 大規模なリファクタリング

初期テストでは、通常手作業で45分以上かかるタスクを 一度で完了 することができ、開発時間と作業量を大幅に削減した。

今後の展望

今後数週間で、Anthropicは実際の使用状況をもとにClaude Codeをさらに改善していく予定である。 具体的には、以下のような領域での改良が予定されている。

  • ツール呼び出しの信頼性向上

  • 長時間実行するコマンドのサポート追加

  • アプリ内でのレンダリング改善

  • Claude自身の機能理解の向上


新たなスケーリング技術:AIエージェントとしてのClaude

Claude 3.7 Sonnetには、新たな特性として 「行動拡張(Action Scaling)」 機能が搭載された。 この改良により、関数の呼び出しを繰り返し、環境の変化に応じた対応を行い、オープンエンドなタスクを完了するまで継続的に作業できるようになった。

コンピュータ操作タスクの向上

例えば、コンピュータの操作では、Claudeは 仮想マウスクリックキーボード入力 を行い、ユーザーの代わりにタスクを実行できる。 従来のバージョンと比較して、Claude 3.7 Sonnetは より多くのインタラクションを行える ようになり、さらに 長い時間と計算資源を投入できる ため、結果としてより高い成功率を達成している。 この進歩は、マルチモーダルAIエージェントの能力を評価するテストプラットフォーム「OSWorld」の評価において十分に反映されている。 Claude 3.7 Sonnetは初期段階から優れたパフォーマンスを示し、仮想コンピューターとの継続的な相互作用を通じて、その性能の優位性が時間とともにさらに拡大していく。

ClaudeのExtended ThinkingモードとAIエージェントのトレーニングが組み合わさることで、OSWorldを含む多くの標準評価において優れた成果を収めるだけでなく、予想外のタスクにおいても画期的な進展を遂げている。

ゲームプレイの進化

例えば、ゲームプレイの分野では、特にGame Boyのクラシックゲーム『ポケットモンスター 赤』において顕著な成果を見せた。 Claudeには、基本的な記憶機能、画面のピクセル入力機能、ボタン操作や画面ナビゲーションの関数呼び出し機能が搭載されており、これにより従来のコンテキスト制限を超えて、数万回に及ぶ継続的なインタラクションを可能にした。

以下の図では、Extended Thinking能力を持つClaude 3.7 Sonnetと、以前のClaude Sonnetバージョンの『ポケットモンスター』における進行状況を比較している。 図からも分かるように、旧バージョンはゲーム開始直後から前進が困難であり、Claude 3.0 Sonnetは物語の出発点であるマサラタウンの最初の家から抜け出すことすらできなかった。

一方、Claude 3.7 Sonnetは改良されたAIエージェント能力を活かし、大きな進展を遂げた。 なんと、3人のジムリーダーに挑戦し、勝利を収めてバッジを獲得するまでに至った。 Claude 3.7 Sonnetは、さまざまな戦略を試し、既存の仮説を見直す能力に優れており、ゲームの過程で自身のスキルを向上させることができた。


シリアルおよび並列テストによる計算スケーリング

Claude 3.7 SonnetがExtended Thinking能力を活用する際、「シリアルテスト時の計算」メカニズムを利用しているといえる。 具体的には、最終的な出力を生成する前に、連続した推論ステップを複数回実行し、その過程で計算資源の投入を増やしていく。

このメカニズムにより、性能が予測可能な形で向上する。 例えば、数学の問題を解く際、許可された「思考トークン」の数が増えるほど、正確性が対数的に向上することが確認されている。

さらに、Claudeの研究者たちは「並列テスト時の計算」を活用することで、モデルのパフォーマンス向上を探求している。 この方法では、複数の独立した思考プロセスをサンプリングし、正解を事前に知らずとも最適な結果を選択する。 これには、多数決またはコンセンサス投票の仕組みを用いることができ、最も頻繁に出現した回答を「最良の答え」として採用する。

また、別のLLM(大規模言語モデル)を用いて結果を検証したり、学習済みのスコアリング関数を使用して最適な回答を選択したりする方法もある。 これらの最適化戦略(および関連する研究)は、複数のAIモデルの評価レポートで有効性が確認されている。

GPQA評価における画期的な進展

GPQA評価では、「並列テスト時の計算スケーリング」によって大きな進歩を遂げた。 具体的には、256個の独立したサンプルに相当する計算資源を活用し、学習されたスコアリングモデルと最大64,000トークンの推論制限を組み合わせることで、Claude 3.7 SonnetはGPQAテストにおいて 総合スコア84.8%(物理学分野では 96.5%)を記録した。

注目すべき点として、従来の多数決の制約を超えても、モデルのパフォーマンスは引き続き向上し続けている。 下図では、スコアリングモデルのアプローチと多数決メソッドの詳細な結果を示している。

これらの手法により、Claudeの回答品質が向上し、推論プロセスの完了を待つことなく、より正確な答えを得ることが可能になる。 複数の異なる深い思考プロセスを同時に実行することで、Claudeはより多くの問題解決アプローチを探求し、正解を出す確率を大幅に向上させた。


三段階のロードマップ、Claudeの協力者が登場

Claude 3.7 SonnetとClaude Codeは、人間の能力を真に強化する人工知能システムへの重要な一歩を示している。 その高度な推論、自律的な作業、効果的な協力能力により、AIが人間の可能性を拡張する未来がますます現実に近づいている。

そして今、Claudeの協力者が登場した。


最新版を無料で体験可能

特筆すべきことに、Claude 3.7 Sonnetは現在、Claude.aiプラットフォーム上で公開されており、Web、iOS、Androidのすべてのユーザーが無料で利用できる。 カスタムAIソリューションを構築したい開発者は、Anthropic API、Amazon Bedrock、そしてGoogle CloudのVertex AIを通じてClaude 3.7 Sonnetにアクセスできる。

標準モードおよびExtended Thinkingモードにおいて、Claude 3.7 Sonnetの価格は前世代と同じである。料金は、入力100万トークンあたり3ドル、出力100万トークンあたり15ドルで、これには思考トークンのコストも含まれる。

Anthropicの料金プラン

AIの専門家によるテスト

ペンシルベニア大学ウォートン・スクールの教授であるイーサン・モリック(Ethan Mollick)は、過去数日間にわたりClaude 3.7をテストした。

彼によると、Claude 3.7の性能は、初めてChatGPT-4を使用したときと同じような驚きをもたらし、その能力に対して一抹の不安を感じることもあるという。特にClaudeのネイティブなコーディング能力について言及し、自然な対話や文書を通じて、プログラミングの知識がなくても動作するプログラムを得ることができると述べた。

例えば、彼がClaudeに新しいAI教育ツールに関する提案書を渡し、「提案されたシステムのアーキテクチャを3Dで表現し、インタラクティブにしてほしい」と指示したところ、Claudeは論文の核心設計を表現するインタラクティブなビジュアライゼーションを生成した。それには一切の誤りがなかった。

このビジュアルは簡潔なものであったが、最も印象的だったのはその点ではない。驚くべきことに、Claudeは自主的にこのデザインを段階的に説明するデモンストレーション形式にし、関連する概念を理解しやすくする工夫を施していたのである。これは、彼が明示的に要求したことではなかった。

このような「ニーズを予測し、新しい方法を考える能力」は、AI分野における新たなブレークスルーといえる。

さらに興味深い例として、イーサン・モリックはClaudeに対して次のようなリクエストをした。

「インタラクティブなタイムマシン装置を作ってくれ。過去に戻れて、面白い出来事が起こるようにしてほしい。普通ではない時代をいくつか選んでくれ…」 「もっと画像を追加してほしい。」

すると、わずか2つのプロンプトだけで、完全に機能するインタラクティブな体験が生み出された。さらに、粗削りながらも魅力的なピクセルアートの画像も付属していた。驚くべきことに、Claudeはこれらの画像を純粋なコードのみを使って「描画」しており、作成中の画像を見ることなく作業を進めていた。まるで目隠しされたアーティストのようである。

元記事