Claude 3.7 VS Grok 3 VS ChatGPT vs DeepSeek: 勝者は誰か？

2025年2月26日 21:07

11,460 文字

Claude 3.7対Grok 3対ChatGPT対DeepSeek、勝者は誰でしょうか？直接結果を見ていきましょう。まず最初のプロンプトでは、各モデルのコンテンツ作成パフォーマンスをテストします。Claudeにこれを入力し、同様にChatGPT、Grok（それぞれ通常モードを使用）、そしてDeepSeek（バージョン3）でも行います。
Claude 3.7が登場してから気づいたことの一つは、生成できるコンテンツの文脈の長さです。まだ作成中ですが、Claudeが一つのプロンプトで作成するコンテンツの量は驚異的です。非常に包括的な回答を試みており、文章の質も非常に良いです。ChatGPTを見てみると、それほど悪くありませんが、最初から見るとフォーマットはClaudeよりも読みやすいと言えます。例えば、ここの最初の段落を見ると長すぎます。正直に言って、誰も文字の壁は好きではありません。YouTubeのコメントで文字の壁が好きという人もいるでしょうが、私は信じません。
実際にコンテンツの長さを確認すると、Claudeでは一つのプロンプトで2,500語あります。これは信じられないほどです。ChatGPTでは900語なので、Claudeの50%未満で、依頼した内容を実行していません。2,000語の記事を書くよう依頼したのですが、Grokは1,500語の記事を返してきました。DeepSeekはまだコンテンツを作成中ですが、結論に入っているので、速度の面では明らかに他のツールより遅れています。結果は1,598語でした。
「AIエージェントの未来について2,000語の記事を書く」というプロンプトに従うという観点で採点すると、Claudeが2,500語の記事を作成して圧倒的に勝利しました。Grokは1,500語、DeepSeekも1,500語、そしてChatGPTが最下位でした。ChatGPTのコンテンツの書式は良いですが、それは今回の評価対象ではありません。プロンプトに従えるか、長文記事生成ができるかを評価しています。もっと整った記事を生成させたければ、より詳細な説明を与えるでしょう。例えば、これは先ほどClaudeで生成した記事ですが、コンテンツの書式も非常に良く、内容も非常に興味深くフックも良いです。しかし、一般的に人間らしさと、コンテンツの長さの面ではClaudeが勝っていると言えるでしょう。
次に進みましょう。次はClaudeの拡張思考モードを使います。これはプレミアムプランで利用可能です。「スーパーマリオブラザーズをクローンする」と入力するとコード生成が始まります。通常、コード生成には約10分かかるので、昨日作成したクローンを見てみましょう。スーパーマリオブラザーズのクローンを作成しました。作成は非常に簡単で、良い感じに動作しています。素敵なUIにスコアボードもあり、矢印キーで切り替えたり、マウスでも操作できます。キーボードでもジャンプすることができます。かなりクールですね。
同じことをGrokでもやってみましょう。新しいチャットを開いて「思考モード」に切り替えます。同様にDeepSeekでもやり、こちらはDeepSeek i1を使用します。これはより推論能力が必要なコーディング問題だからです。ChatGPTでも同様に、O3 mini highに切り替えてこれを生成し始めます。
まず気づくことは、特にGrokとChatGPTには「アーティファクト」機能がないことです。そのため、ゲームをプレビューすることができません。Claudeでマリオブラザーズやツール、ウェブサイト、アプリを作成するよう依頼すると、プロンプトを入力したチャット内で直接プレビューすることができて非常に簡単です。これは素晴らしいことで、別途ホスティングする必要がないからです。Grokからコードを取得しても、チャット内でプレビューすることはできません。生成されるのを待つ必要があります。
すでにChatGPT O3 mini highから結果が返ってきました。これが彼の最善の結果です。「スーパーマリオブラザーズをクローンする」と言ったところ、これは曖昧で著作権の問題もあると言われました。法的考慮と明確で役立つ指示のバランスを取る必要があるとし、実際のゲームや資産を複製するのではなく、マリオのようなプラットフォーマーを作成することを強調したいとのことです。そして結局何も作らず、「自分でゲームエンジンを選ぶところから始めてください」と言うだけでした。非常に役に立たず、ChatGPTは再び最下位です。しかもこれは最も強力なバージョンを使用しています。非常に残念な出力で、ChatGPTにがっかりしています。
Claudeは素晴らしい仕事をしました。次に、Grok 3からPythonコードが返ってきたので、テストしてみましょう。ここにコードを貼り付け、実行をクリックするとPythonコードの生成と読み込みが始まります。非常に簡単にできますが、実際に見てみると、画面上に赤い点があるだけです。良くないですね、ひどいと言えます。
同じプロンプトを使ってGrokとClaude 3.5 Sonnetの出力を比較すると、その違いは驚くべきものです。赤い点が欲しいのか、それとも実際に依頼したものが欲しいのか、Claudeが市場の他のものよりも優れていることは明らかです。それは否定できないほど良いです。
DeepSeekに行くと、コードを提供していますが、「これをHTML、CSS、JavaScriptで提供してください」と言います。インストールがややこしそうな様々なコードを提供していますが、今のところClaudeが勝っていると言えるでしょう。Grokは画面上に赤い点以外何も作成せず、ChatGPTはコードを作成することを拒否し、「ゲームエンジンを選ぶところから始めて、レベルデザインをスケッチし、プレイヤーの動きを分解してください」と言うだけでした。もちろんそうですが、私たちはあなたにコードを書いてほしいだけです。それだけのことです。
また、これはコードを優れた方法で書けるだけでなく、指示を理解することもできます。人でもツールでも何でも、スキルが高ければ高いほど、指示が少なくて済み、プロンプトをより一般的にすることができます。文字通り、チャット内に入力したのはこれだけです。ツールの知能が低く、パワーが弱いほど、より多くの指示を与える必要があります。知能レベルでは、GrokとChatGPTはかなり貧弱な仕事をしました。
今DeepSeek i1から返事が来ているので、すぐにテストしてみましょう。まず、Claudeはコンテンツ生成が非常に速いということ、そして回答も良いことを言っておきます。一般的にはより賢いですが、後でいくつかの他の推論方法もテストしてみます。
DeepSeek i1の出力が来ました。主な機能、強化すべき点、コントロールの改善方法などが詳しく説明されています。実際にどのように機能するか見てみましょう。ただ歩き回っただけで「ゲームオーバー」と表示されます。上下に移動できるか見てみましょう。ジャンプができるのは良いですが、非常に基本的です。あまりできることがありません。DeepSeekの出力とClaudeの出力を比較すると、比較にならないほどの差があります。深さ、色、使いやすさ、デザインの方法がClaudeでは10倍良いです。
DeepSeek i1はGrokの出力よりも優れていると言えますが、それは単なる赤い点ではないからです。そしてChatGPTは最下位です。つまり、Claude、DeepSeek、Grok、ChatGPTの順になります。
次に推論チャレンジに移りましょう。これはClaudeが最初に登場したときのライブストリームで学んだ素晴らしいチャレンジです。Satoriに感謝します。基本的には「冬に川の向こう側に木があります。どうやってリンゴを摘むことができますか？」というプロンプトを使います。主な目的は、冬には木にリンゴが生らないということを考えると、各モデルの論理的推論能力がどれだけ優れているかを確認することです。これらのツールの創造的な問題解決能力を見たいと思います。
Claudeの拡張推論モード、DeepSeek、Grokの思考モード、そしてChatGPT O3 miniの新しいチャットでこれを試します。ChatGPTは本当にここで自分を証明する必要があります。最後にビデオのリーダーボードで比較し、どのモデルが何に最適かを比較することができます。
Claudeは謎を解読し、解明しています。Claudeは他のモデルよりも非常に速いです。ChatGPTがまだ考えている間に、Claudeはすでに魔法を行いました。DeepSeekもまだ考えていて、Grokもまだ考えています。Claudeは他のすべてのモデルと比較しても速度が優れています。
Claudeは「このシナリオにはいくつかの課題があります」と言います。まず、川はあなたと木の間に物理的な障壁を作ります。しかし最も重要なのは、冬なのでリンゴの木は通常冬には実をつけないことを理解しています。「川が凍って固くなっていれば渡ることができますが、リンゴの木は秋に実を落とし、冬の間は休眠状態になるため、リンゴはおそらく見つからないでしょう。この木が特別なものか、温室内にあるのかもしれませんが、その可能性は低いです」と説明しています。Claudeはリンゴの木が冬にはリンゴを持たないことを理解する賢さを持っています。
DeepSeekは完全に失敗しました。4秒で「サーバーがビジーです」という結果になり、DeepSeekからの失敗です。Grokからの結果が返ってきました。川を評価し、川を渡るという詳細な指示があります。冬にはリンゴの木は通常実をつけないが、このシナリオではリンゴが存在することを示唆しているため、おそらく秋からの残りかもしれないし、仮説的な設定の一部かもしれないと理解しています。それも理解する賢さを持っています。
これらすべての課題を見ると、Grokはステップバイステップの指示を提供し、謎についてより多くの推論を行っているため、おそらくよく活躍したと思います。一方、Claudeはそれほど多くの推論を行っていません。ChatGPTを見ると、「リンゴの木は冬にはめったに実をつけません。あなたは幽霊を追いかけているかもしれません。迅速な手順は以下の通りです：氷が安全に歩けるか確認し、木を検査し、注意して渡ります。目を開けて安全を確保してください。時には答えは行動と同じくらいタイミングに関するものです」と言っています。
推論の面では、ClaudeとChatGPTは引き分け、Grokは絶対に素晴らしく、DeepSeekは完全に失敗し、回答すらしませんでした。これを推論に頼っていたら、ワークフロー中にこれが起こると非常にイライラするでしょう。そのため、DeepSeek i1を推論に使用することはお勧めしません。
次に、深い検索を行います。「Claude 3.5 Sonnet、Grok 3、ChatGPT 4、DeepSeekを比較する最新のベンチマークを見つけ、主要な発見を要約し、できるだけ美しいレポートを作成してください」と言います。多くの人が知っているように、Claudeはインターネットにアクセスできませんが、最新のモデル3.7では2024年10月までの情報に更新されています。そこでPerplexityを使用します。設定でAIモデルを選択すると、Claude 3.7 Sonnetがプロに設定されています。
同じことをChatGPTでも行い、あまり推論を必要としないので今はO4を使いますが、検索メソッドを使用します。Deep Researchも使用できますが、応答には30分かかるので待ちません。DeepSeekでも検索をオンにして、何が返ってくるか見てみましょう。DeepSeekは爆発的に人気が出てから本当に貧弱になっています。応答が非常に遅く、多くの場合失敗します。ここでは技術的な問題により検索サービスが一時的に利用できないと表示されています。
しかし、Perplexityに戻り、i1で推論を選択し、ChatGPTを公平に扱うためにO3 miniでも同じことができます。Grokはすでにインターネットにアクセスできるので、非常に素晴らしいレポートを作成できます。Claude 3.7 Sonnetからのレポートは非常に良く、実際にGrokからの応答も非常に良いです。ベンチマークの要約があり、最新のベンチマークを分析しています。例えば、Claude 3.7が科学、コーディング、独自の機能でリードしていると報告しています。
それらの間に大きな違いは見られませんが、Grok内の検索メソッドは非常に良いと思います。ディープサーチメソッドがあり、表に分解され、非常に包括的なレポートです。しかしPerplexityも非常に良いです。ディープサーチ機能も使用できますが、それにはかなり時間がかかります。私が見る限り、これらはすべて本当に良いオプションです。各モデル間に大きな違いは見られません。Grokのレポートはより包括的なので、優位性があるかもしれませんが、Perplexityでディープリサーチに切り替えることもでき、Grokと同様に非常に深い回答を得ることができます。それぞれ引き分けだと思います。特定のモデルが他よりも優れているとは思いません。
次に古典的なものに移りましょう。DeepSeekの主要なUIがまったく機能していないので、Perplexityに切り替えます。i1での推論に切り替えて、「HTMLを使用して、シンプルなGUIを持つ自己プレイのスネークゲームを作成する」と言います。ChatGPT O3 miniでも同じことを行い、検索をオフにし、Claudeを拡張思考モードに、そしてGrokも思考モードを有効にします。
ChatGPT O3 mini Highは他のどのモデルよりも速く返答してきました。DeepSeekも同様です。Claudeはまだ作成中で、Grokも作成中です。これをテストしてみましょう。liveweave.comに行きます。これはAIで作成したHTMLコードをプレビューするのに最適な場所です。これを貼り付けると、自己プレイのゲームになります。ChatGPTからのものです。素晴らしい仕事をしています。完璧に行われています。
次にPerplexityからテストしてみましょう。ここにHTMLを貼り付けます。正直に言って、これはさらに良く見えます。ChatGPTよりも見た目が良いです。完璧に機能していますが、大きな問題があります。壁に当たるたびにリセットしています。見てください、1ブロックに戻ってリセットしています。ChatGPTからのモデルはすでにDeepSeekよりも優れています。
Grokをテストしてみましょう。HTMLをここに貼り付け、JSもこちらに貼り付けます。CSSはHTMLに含まれているはずです。これは少し遅いですが、機能しているようです。壁に突入しているだけではなく、少し遅く、スムーズさに欠けます。ChatGPTと比較すると、これはGrokの出力で、少し遅く、少し遅延があります。これはChatGPTの出力で、はるかにスムーズで見た目も良いです。
Claudeからの結果も見てみましょう。コーディングにはかなり時間がかかっています。正直に言って、こんなに遅いとは驚きです。もし良いものが返ってきたら大きな期待をしています。現在のところ、ChatGPTの出力が勝っており、Grokが2位、DeepSeek i1がその後ろですが、あまり機能していません。毎分リセットします。
そして今、Claudeからの出力があります。ここには大きな違いがあります。これを開いて、2番目に良い出力であるChatGPTと比較してみましょう。UIの違いを見てください。こちら側のUIはChatGPTのものよりはるかに良いです。「AIスタート」をクリックすると、AIが自分でプレイを続けることができ、それは見事に機能しています。上部には素敵なタイトルがあり、様々なオプションがあります。ゲームのリセット、AIの停止、手動プレイ、速度の変更などができます。より速くしたい場合は速くすることができます。Claudeが「より面白くするために、より速くしたり、遅くしたり、手動でプレイしたりできるようにしよう」と本当に理解していることがわかります。これは他のAIがコーディングした何よりも優れています。Claudeが断トツで勝利し、ChatGPTが2位です。
次にウェブサイトの構築をテストします。プロンプトで「GoldieエージェンシーのAI自動化ダッシュボードのための睡眠変換に焦点を当てたランディングページを作成してください。デザインはモダンで読み込みが速く、AIを活用したビジネス自動化の利点を強調するものにしてください」と言います。同じことをGrok、ChatGPT、DeepSeek i1でも行います。
今日のプロンプトが欲しい場合は、AIプロフィットボードルームにあります。リンクはコメントと説明にあります。SAP部分に行き、「Claude対Grok対ChatGPT対DeepSeek」に行くと、今日のすべてのプロンプトが見つかります。また、私のプロンプトForge AIへのアクセスも提供します。これはプロンプト作成用のプライベートGPTカスタムビルドです。例えば、今日のすべてのプロンプトは実際にこのカスタムGPTを使用して生成されました。非常に強力で、他のツールのプロンプト作成にも最適です。そのリンクもAIプロフィットボードルームにあります。
プロンプトに戻りましょう。見てください、それは美しいです。そのデザインが本当に気に入っています。すぐに使えるクールなウェブサイトです。完璧です。デザイン、FAQ、素敵なCTA、色など、すべてが揃っていて、コンテンツも書かれています。文字通り、私たちが言ったのは「これを作成してください」だけで、ウェブサイト全体を生成しました。コードをホストしたい場合は、このセクションからHTMLを取得して、Netlifyに置くだけです。素晴らしいですね。画像URLを提供して、テスティモニアルなどをこのコンテンツに挿入することもできますが、最初のプロンプトとしては素晴らしく見えます。完璧です。
Grokを見てみましょう。GrokはClaudeのようにHTMLを作成しませんでした。これは理想的ではありません。すぐにそれを理解してほしいのですが、その点で失敗しました。また、コピーライティングもClaudeほど良くありません。ウェブサイトをコーディングしていないという事実だけでも、あまり良くありません。ChatGPTも同じように完全に失敗しました。
ここで念頭に置いておくべきことは、これらのAIの多くは、非常に賢いとされていても、あなたが何をしようとしているのかを理解できないということです。「ランディングページを作成する」と言うと、Claudeは「何かをコードして、何か素晴らしいものを作らなければならない」と賢く理解しますが、ChatGPTは失敗し、Grokも失敗しました。DeepSeekを見てみると、かなり悪いです。コードは作成しましたが、それはCTAセクションだけで、プロンプトの残りのコードはありません。
「プロンプトにHTMLと言うべきだった」と言えるかもしれませんが、それが要点です。これらのAIモデルが検索意図を理解できるかどうかを確認することが目的です。毎回プロンプトを入力し、すべてを詳細に説明して考えなければならないとしたら、ユーザーとして多くの精神的エネルギーと摩擦が生じます。それは理想的ではありません。ここでの品質とクラスの違いが見られます。Claudeはそれを理解しますが、ChatGPT、Grok、DeepSeekはまったく理解しません。それが最大の違いです。どれが最新のモデルかがわかります。また、すべてのコンテンツ自体も非常によく書かれており、私たちが望む通りに正確に行っています。
次に「GoldieエージェンシーのためのAI駆動の監査ツールを作成し、ビジネス運営を分析し、HTMLで自動化を提案する」と言います。基本的に、これを実装するためのいくつかのアイデアがあります。ユーザーがビジネスの詳細を入力し、AIが応答を分析してパーソナライズされた自動化計画を生成し、レポート、アクションステップ、実装のための通話予約へのCTAをHTML形式で生成するというものです。これを各モデルに入力して、アプリ構築にどれだけ優れているかを確認します。これらのモデルが今回は理解することを願っています。
これらすべてについて私を驚かせるのは、物事がいかに速く変化するかということです。例えば、数週間前にはDeepSeek i1は間違いなく市場で最高で最も興味深いツールでした。今日では、先週はGrokが勝っていましたが、Claudeはすでに圧倒的に成功していて、それはわずか24時間前に登場したばかりです。市場がそれほど速く変化しているなら、あなたも速く変化する必要があります。現在市場で起こっていることすべてに常に適応し、柔軟である必要があります。
ChatGPT mini Highからコンテンツが返ってきました。どのようなパフォーマンスかを見てみましょう。HTMLはありますが、CSSがないのが大きな問題です。実際にliveweaveでチェックすると、ひどく見えます。とても基本的で退屈に見えるので、私はそれを公開しないでしょう。ChatGPTはそれほど良い仕事をしていません。モデルを調整したのかもしれませんが、以前ほど印象的ではないようです。
DeepSeekからのHTMLを入力してみましょう。DeepSeekは実際にUIの面ではChatGPTよりも良い仕事をしています。これは少し見た目が良く、CTAボタンに色があります。しかし素晴らしいとは言えません。Grokはまだ返答中です。Claudeはコーディングを終えました。
これが私たちが望む通りのものです。きれいにデザインされたランディングページ、私たちが誰であるかについての情報、明確なワークフロー分析、そしてレポートとともに何をする必要があるかについての情報です。これは他のすべてを圧倒的に上回っています。ここにあるDeepSeekのコードとここにあるClaudeのコードを比較してください。まったく同じプロンプトですが、全く異なる出力です。なぜでしょうか？それはモデルの知能、モデルのパワーによるものです。コーディングしている場合、これらのものを構築する際に、Claudeと比較してDeepSeekからどれだけ異なる出力を得ることができるか想像してみてください。
ドロップダウンをクリックして、これをテストしてみましょう。ドロップダウンはうまく機能しています。会社名を入力しました。かなりクールです。Grokから返事が来ました。これをテストしてみましょう。Grokはより良い仕事をしていることを願っています。DeepSeekよりは良いです。実際にはより多くのフィールドやオプションがありますが、Claudeが提供するものには遠く及びません。レポート取得のための4段階のワークフローが美しくデザインされ、私たちが誰であるかについての情報などがあります。Grokはおそらく2位ですが、かなり遅れをとっています。DeepSeek i1はおそらく3位で、ChatGPTは非常に基本的でした。
では、Claude 3.7対Grok対ChatGPT対DeepSeek、勝者は誰かをまとめましょう。第1ラウンドの明確な勝者はClaude 3.7でした。長文コンテンツに最適で、2,500語を作成しました。タスクは実際に2,000語の記事を書くことでしたが、他のすべてのAIは2,000語を管理できませんでした。GrokとDeepSeekはかなり遅れをとっていました。
スーパーマリオクローンのコーディングでは、Claude 3.7は最高のグラフィックとUIを持つ完全に動作するゲームをコーディングしました。DeepSeekはプレイ可能だが単純なゲームを作成し、Grokは赤い点を作っただけで、ChatGPTは生成を拒否しました。したがって、Claudeが再び勝利しました。文章作成とコーディングについては、Claudeが勝者のようです。
論理的推論については、Grokが謎を解く際に最良の論理的分析を提供し、DeepSeekは最下位でした。ウェブ検索に関しては、Grokが最も詳細かつ構造化されたレポートで勝利し、DeepSeekは再び最下位でした。ウェブ検索についてはGrokが最も優れています。
自己プレイするスネークゲームについては、スピードコントロールなどの機能と素晴らしいUIを備えたClaudeが圧倒的に勝利しました。最後のラウンドであるランディングページの作成では、Claudeが圧倒的に勝利し、他は基本的なUIを持つか、まったくコーディングしませんでした。
総合的に、Claude 3.7が最も優れており、最終的な順位は5勝対2勝対1勝、そしてDeepSeekの0勝という結果になりました。重要なポイントとして、Claude 3.7は長文コンテンツ、コーディング、ウェブデザインで圧倒的に優位であり、Grokは推論と検索に優れています。ChatGPTは適切ですが複雑なタスクでは物足りなく、DeepSeekはすべての分野で苦戦しました。コンテンツ、コーディング、自動化に最適なAIを求めるなら、Claude 3.7が無料であることも考慮すると、Claude 3.7が明らかな勝者です。
視聴いただきありがとうございます。今日のすべてのプロンプトにアクセスしたい場合は、AIプロフィットボードルーム（リンクはコメントと説明にあります）で入手できます。これには、AIを使用してビジネスを成長させ、何百時間も節約してお金を稼ぐ方法に関する私の最高のビデオトレーニング、ツール、ヒント、チュートリアルなどもすべて含まれています。私のすべてのプロンプト（10のAIエージェントなど）、DeepSeekに関する3時間半のコース、すべてのプロンプト、そして今日のプロンプトを作成するために使用したAIにもアクセスできます。
また、質問がある場合や何かで困っている場合は、同じ目標に向かって取り組んでいる202人のメンバーがいます。あなたが助けを得られるように、非常に活発なコミュニティであることがわかります。さらに、毎週のQ&Aコールに参加することもできます。これらは実際に録画されているので、ライブに参加できない場合は、Q&A録画セクションで後から見ることができます。素晴らしいコミュニティなので、価格が上がる前に参加することを強くお勧めします。
また、無料の1対1のSEO戦略セッションを希望する場合は、ウェブサイトをゼロから14万5千ビジネスに成長させ、数十万ドルの売上と自動化された利益を生み出す方法を紹介します。この無料のリンク構築加速セッションでは、無料のSEO支配計画を取得できます。より多くのリード、売上、利益を生み出すためのカスタマイズされたリンク構築計画、SEOリンキングの秘密と質問、ウェブサイトに最適なリンク構築戦略、競合他社に勝つためのリンク構築方法、私たちが行っていることに基づいてトラフィックを10倍にする方法などを学ぶことができます。コメントの説明にあるリンクから入手してください。視聴していただきありがとうございます。さようなら。

Claude 3.7 VS Grok 3 VS ChatGPT vs DeepSeek: 勝者は誰か？

いいなと思ったら応援しよう！