Claude 3.7 Sonnet: 史上最高のコーディングLLM！（完全テスト済み）- 本当に信じられない！

2025年2月25日 06:38

3,968 文字

Anthropicがついに新しいモデルをリリースしましたが、これは本当に信じられないほどすごいものです。Claude 3.7 Sonnetをご紹介します。これは彼らの最も知的なモデルであり、ほぼ瞬時の応答と段階的な思考を生み出すハイブリッド推論モデルです。一つのモデルでありながら、二つの思考方法を持っています。また、Cloud Codeと呼ばれるエージェント型のコーディングツールもリリースしており、これについては後ほど別の動画を作る予定です。
Claude 3.7 Sonnetはその前身から大幅にアップグレードされています。拡張思考モードにより、数学、物理学、指示に従うコーディングなど多くのタスクでモデルに追加のブーストを与えます。これは今まで作られた中で最高のモデルかもしれません。Claude 3.5 Sonnetを全ての面で大きく上回り、Grok 3やDeep Seek R1、すべてのGPTの03、miniなど多くの他のモデルを凌駕しています。
Claude 3.7 Sonnetは特にコーディングとフロントエンドのウェブ開発に強く、これが後ほどCloud Coderについての動画を作る理由です。このモデルのSUWAベンチマークのパフォーマンスを見てください。標準のハイスコアである62.3%を記録し、カスタムスキャフォールドでは70.3%を達成しています。比較すると、o1やo3は50%にもほとんど達していないことを考えると、これは本当に信じられないほどです。
現在、これが今までにリリースされた最高のコーディングベースのモデルであると100%言えますし、今日からアクセスできます。また、より大きなコンテキストも持っています。唯一懸念されるのはレート制限です。
これから、このモデルを様々なプロンプトで評価していきます。主にコーディングと推論タスクに焦点を当てます。まず、HTML、CSS、JavaScriptを使用した簡単なウェブページを構築させ、次に私が与える要件に基づいて何かを生成させます。
最初は小さなことから始めましょう。「フィットネスの目標とワークアウトを追跡するためのシンプルなウェブページを作成してください。モダンでスタイリッシュにしてください」というプロンプトを送信します。Claudeの素晴らしい点は、チャットボット内にアーティファクト機能があり、リアルタイムで何が起こっているかを見て視覚化できることです。
無料でClaude 3.7モデルを選択できるようになりました。これは今すぐClaudeのAIチャットボットで完全に無料でアクセスできます。すぐに気づくのは、このモデルがコンテキスト長に関して素晴らしい仕事をしていることです。Claude 3.5 Sonnetでの応答と比較すると、ずっと前に終わっていたでしょうが、この場合はまだ継続的に生成しているのが見えます。
そして、アプリが完全に動作するようになりました。これは目標、ワークアウト、統計を生成したフィットネス追跡アプリであることがわかります。彼らのブログ記事で述べられたように、これは以前のモデルと比較してより良いコンテキストラインを持つ推論モデルであるため、より大きなコードスニペットを提供できるため、コーディング出力に関して特に強力です。より長いコンテキスト形式で何が良いか推論できるので、フロントエンド開発に最適であり、コーディングにおいて本当に役立つものです。特に推論モデルであるため。
次に、この推論プロンプトを試してみましょう。始める前に、World of AIニュースレターに登録すべきだということを言及しておきます。週に一度、AIの分野で何が起きているかについての最新知識を簡単に得られるニュースレターを投稿しています。これは完全に無料なので、ぜひ登録してください。
このプロンプトでは、「部屋に3つの電球があり、部屋の外には3つのスイッチがあり、それぞれが1つの電球をコントロールしています。部屋に入れるのは一度だけです。どのスイッチがどの電球をコントロールしているかをどのように判断しますか？」という論理的推論プロンプトです。これはモデルが戦略を立て、計画し、結果を推測する能力をテストしています。
基本的に、正解を得ることができました。3つの答えを提供し、第3の答えの中で3つの異なるシナリオのサブセットを提供しました。まず、スイッチ1を数分間オンにしてからオフにし、次にスイッチ2をオンにしたままにして、第3のシナリオで部屋に入り、電球をチェックします。これらの3つの異なるシナリオでは、オンになっている電球はスイッチ2によってコントロールされ、オフだが触ると温かい電球はスイッチ1によってコントロールされ、オフで冷たい電球はスイッチ3によってコントロールされます。
これは実際に正確で、適切に批判的に考え、この回答の開発を戦略化することができました。また、どのような推論も排除し、正しい答えを提供することができました。これは確かに合格です。
次に、「対称的な翼とシンプルなスタイリングを持つ蝶のSVG表現」を作成させます。この理由は、このモデルがSVGコードの生成においてどれほど優れているかを評価するためです。ちなみに、このプロンプトには成功しました。蝶を対称的に生成することができました。このモデルが変換やスケーリングなどのSVGコードをどれほどマスターしているかを見ようとしています。そしてすぐに見てわかるように、これを非常に迅速に行うことができました。これは確かに合格とみなされ、非常に印象的です。
次に、このモデルが「与えられた文字列内で最長の回文シーケンスを見つける関数を実装し、動的プログラミングを使用して最適化する」ことをどれほど上手くやるかを評価します。このプロンプトを送信するだけで、迅速にスクリプトを送り返すことができました。
このプロンプトでは、モデルのアルゴリズム思考と最適化スキルがどれほど優れているかを、動的プログラミングの側面に焦点を当てて評価しています。スクリプトを生成するだけでなく、実装の最適化にも焦点を当てています。重複するサブ問題、ボトムアッププローチ（ここでO(n^2)と見られます）、サブ問題の解を格納するための2次元DPテーブル、文字列操作、再帰なしの思考などを使用しています。全体的に、私が送信したプロンプトに基づいて期待以上のことを行いました。これは合格とみなします。
次に、「HTML、CSS、JavaScriptを使用して応答性の高い画像ギャラリーを作成する」ように指示します。このモデルのフロントエンド機能と、CSSグリッドとフレックスボックスに焦点を当てています。画像のグリッドを表示し、クリックするとフルスクリーン表示のライトボックスが開き、ユーザーが画像をスクロールできるようにしたいと伝えました。
すぐにできたのは驚きです。クリックすると...これは本当に印象的です。予想よりも早くできたことに言葉を失っています。全体的に、私が要求したものに基づいてこれを完全に生成することができ、非常に迅速にできました。ライトボックスを追加することに焦点を当て、フルスクリーンモードでは背景がパンアウトされ、ギャラリー内のすべての異なる画像を次々に見ることができることがわかります。これは確かに合格とみなされ、非常に印象的です。
次に、「バニラJavaScriptを使用して簡単なAIチャットボットを作成する」ように指示します。このチャットボットはユーザー入力を使用し、事前定義された応答をチェックして適切な返信を提供し、入力が認識されない場合はデフォルトメッセージを返すようにします。
このプロンプトでは、Klienを介してClaude 3.7 Sonnet APIを使用しています。ちなみに、KlienはAnthropicをプロバイダーとしてClaude 3.7 Sonnetを彼らのAPIリストに追加したばかりなので、直接アクセスしたい場合は、レート制限なしで今すぐできます。
チャットボットの生成が終わったようです。index.HTMLファイルを開いてみましょう。これが私たちのチャットボットです。話しかけると応答が返ってきます。これは本当に信じられないことです。AIモデルとリンクして、AI生成の応答を得ることもできますが、数分以内にこれを迅速に生成できたことがわかります。これは本当に信じられないことで、このモデルは任意のソフトウェア開発を迅速に進めることができます。これは間違いなく、現在存在する最高のコーディングベースのモデルの一つです。
このテストも合格とみなされ、このモデルとの簡単な対話に基づいて、これが最高のコーディングベースのモデルであることは明らかです。少し高価かもしれませんが、ぜひ探索することをお勧めします。Cloud Codeについてのビデオをすぐに作る予定なので、ぜひご覧ください。
最後に、視聴してくれてありがとうございます。この動画を楽しんでいただけたなら嬉しいです。すべてのリンクを説明欄に残しておきますので、簡単に始められます。ニュースレターを購読し、Patreonで私をフォローし、Twitterでフォローしてください。最後に、チャンネル登録をお忘れなく、通知ベルをオンにして、この動画にいいねをつけてください。そして、以前の動画もぜひご覧ください。本当に役立つコンテンツがたくさんあります。
皆さん、視聴してくれてありがとうございます。素晴らしい一日を過ごし、ポジティブなことを広め、また近いうちにお会いしましょう。それではみなさん、さようなら。

Claude 3.7 Sonnet: 史上最高のコーディングLLM！（完全テスト済み）- 本当に信じられない！

いいなと思ったら応援しよう！