見出し画像

Grok 3は新しい最高のAIなのか?完全分析

11,617 文字

最高の人工知能が登場しました。Grok 3が到着しました。Elon MuskとxAIチームはGrok 3を約束していましたが、その約束を守りました。彼らは、これが世界で最も賢いAIになるだろうと言っていましたが、正直なところ私にはいくつか疑問がありました。Grok 3は多くのランキングで1位になっています。
皆さん、こんにちは。これが今日のビデオのテーマです。LLM Arenaのランキングをご覧ください。これは標準的なベンチマークではなく、ユーザーによるランキングです。つまり、あなたや私のようなユーザーがAIを評価するテストで、ご覧の通り、トップに位置しています。今日は、Grok 3についてすべてお話しします。
彼らは数日前に発表し、私はElon Muskによる AIの発表も配信しました。彼らはその性格や潜在的な検閲、何を言えて何を言えないかについては何も言及しませんでしたが、業界では完全に制限のないAIだと言われており、実際にそのようです。ただし、これについては後ほど見ていきましょう。
まず、彼らが発表した機能をいくつか見てみましょう。例えば、Deep Researchとしても知られている深い調査機能など、他の企業がすでに立ち上げていた機能です。OpenAIが最近リリースし、Perplexityも研究ツールをリリースしていました。これは、ウェブ上で調査を行うように指示できるAIエージェントです。30分から1時間かけてウェブを検索し、要求したトーピックについての詳細なレポートを返してきます。
また、画像認識や画像生成など、他のツールの使用も開始しています。基本的にはOpenAIがすでに行っていることすべてですが、注目すべき点があります。これが私が言いたかったことで、Grokを他のAIと本当に区別するものです。それは、Xプラットフォーム(旧Twitter)のデータにリアルタイムでアクセスできることです。
はい、これは本当にXのソーシャルネットワークユーザーが生成する膨大な量のデータにアクセスできる唯一のAIです。AIの分野を少しでも知っている方なら、これが競合他社に対して途方もない優位性であることがお分かりでしょう。毎日生成される大量のデータがあり、AIはそれを言わば「食べている」のです。つまり、Xのユーザーが毎日生成するデータを学習し、日々賢くなっているのです。
いくつかのベンチマーク、つまり彼らがライブで発表した時のテストやランキングをお見せしましょう。こちらが彼らが示した最初のグラフで、複数のテストを受けさせています。math AIM 2024、science GPQA、codingという3つの異なるテスト、3つの異なるベンチマークを1つのグラフにまとめて、一目でGrok 3が本当に抜きん出ていることが分かるようにしています。
例えば、現在AIに対して行われる非常に難しいテストであるmath AIM 2024のスコアを見ると、Grok 3は52%で、非常に優秀です。もちろん、ここではGemini 2、DeepSeek、Claude、GPT-4oと比較していますが、小さな注意点として、ここにはOpenAIのo3やo1モデル、つまり思考するモデルは含まれていません。これらは回答する前に考える思考モデルで、このような思考を必要とするSTEMタスク、たとえば数学などのテストで非常に印象的なスコアを出します。
したがって、Grok 3をo1やo3と比較するのはあまり意味がありませんが、Grok 3 thinkingも出てきました。これはGrok 3の思考版で、ChatGPT o1とo3に相当するものです。o1やo3に対して実際にどのように位置づけられるかもご覧いただけますが、その前に、Grok 3の基本モデルが本当に強力だということが分かります。
実際、非思考モデルの中では単純に他のすべてのモデルよりも優れており、その差は相当大きいのです。たとえばcodingベンチマークを見ると、57%のスコアで、2位のDeepSeekの40%と比べてもかなりの差があります。
これを実現するために、本当に興味深いことは、数学とプログラミングに限定して強化学習を集中的に行ったことです。なぜなら、これらの分野は検証可能な報酬を伴う強化学習が可能な領域だからです。これが彼らがこれほど強力である理由で、もし私の最新の分析ビデオをご覧になっていれば、この検証可能な報酬を伴う強化学習について詳しく説明しています。興味がある方は、ビデオへのリンクを下に貼っておきますので、このトピックをより深く掘り下げることができます。
しかし、fascinantなのは、Elon Musk自身とそのチームが語っているように、モデルが単なる訓練データを超えて一般化に成功したことです。これが非常に興味深い点です。実際、数学とプログラミングのために訓練したにもかかわらず、他の分野でも非常に良い結果を出しているのです。たとえここで見られるベンチマークのためにモデルを過度に訓練したと彼らが言っていたとしても、結果として非常に良いスコアが出ています。
先ほど申し上げたように、こちらがGrok 3の思考版です。つまり、回答する前に考え、より多くの推論を行うモデルで、OpenAIのo3に相当します。結果をご覧ください。Grok 3 Reasoning Betaは、M2025で1位です。これは大きな成果です。これは非常に素晴らしいパフォーマンスで、つまりGrok 3が本当に非常に優秀だということを意味します。私も、プログラミングやその他のタスクで試してみるのが本当に楽しみです。
もう一つ小さな注意点ですが、ここではo3 mini hide (Claude?)しか表示されていないことにご注意ください。これは、テストを行う人々がアクセスできる唯一のものだからです。ご存知かもしれませんが、OpenAIが内部でのみ持っているo3の完全版は本当に凄まじいようです。
私の意見では、完全版o3は実際にはここでのGrok 3 Reasoningよりも優れているかもしれません。しかし、実際にはそれはあまり重要ではありません。同様に、後で話しますが、Grok 3はすぐにそれを追い越すと思います。
次に、先ほど紹介でお話ししたLLM Arenaのランキングです。ご覧ください。コードネーム「chocolate」だった最初のモデルは、Grok 3の初期バージョンでした。当時、私たちはそれがGrok 3である可能性について疑問を持っていましたが、今では公式に確認されました。確かに、このモデルはGrok 3だったのです。
ご覧ください、1400のEloを超えています。これは、チェスのランキングと同じ原理に基づいた最高のAIのランキングのようなものです。実際、これはEloランキングで、ここでGrok 3は1402 Eloで1位です。
このテストについて簡単に説明させていただきますと、これはAI同士の対戦のようなものです。つまり、ユーザーに質問に対する2つの回答を提示しますが、どのモデルが回答したかは告げずに、ユーザーは好みを選ぶ必要があります。つまり、どちらのモデルかを知らずに左右を選択し、このように多くの対戦を繰り返します。
だからこそ、このランキングはしばしば人間の好みに基づくランキングと呼ばれています。なぜなら、実際に人間がここでどのAIが最高かを判断するからです。そして、客観的にGrok 3が最高のAIの中で1位になっていることが分かります。つまり、人々に好まれている、あるいは少なくとも人々を最もよく理解しているのかもしれません。
これはGrok 3のリリース直前のランキングでしたが、ChatGPT 4は最近大きなアップデートを受けたばかりです。もしあなたが使用しているなら、かなり明らかだと思いますが、基本的にChatGPTは今、より親しみやすく、よりロボット的でなく、より個性的になっています。これがChatbot Arenaのランキングにどのように反映されるか見てみましょう。
ご覧ください、こちらの新しいグラフは先ほど見たものと同じですが、今回はo3とGrok 3の思考モデルも方程式に加えています。先ほど申し上げたように、実際、Grok 3は他のすべての思考モデル、つまりo3 mini、o1、DeepSeek、Geminiよりも優れています。
そして、OpenAIが内部で使用しているモデルである完全版o3にかなり近いところにいます。正直なところ、このグラフは、最先端技術の状況と完全版o3がどれほど強力かを知っている人にとっては、かなり印象的です。
xAIがここで成し遂げたことは、1年未満で単純に驚くべきことです。なぜなら、はい、これが私にとって最も印象的なことですが、xAIはこれらの信じられないモデルのトレーニングに非常に遅れて参入したにもかかわらず、ここでの最高のモデルである完全版o3に追いつくことに数ヶ月で成功したのです。これは非常に驚くべきことです。
Elon Muskは、これらのモデルの進歩とトレーニング期間を示すグラフを共有してくれましたが、あなたはまだ驚きの終わりではありません。そして、もしAIが信じられないスピードで進歩していると感じていて、取り残されたくないと思うなら、私には何かあります。
私は、すぐに実践できる超アクセシブルなトレーニングを作成しました。はい、私はAIの使い方を教えています。無駄な理論や説明はなく、実践的で効果的、そして何より手頃な価格です。すでに600人以上が参加しており、フィードバックは信じられないほど素晴らしいものです。ご支援ありがとうございます。
もしあなたが常にAIを使って自動化したり、創造したり、収入を生み出したりする方法を理解したいと思っていたり、単にすべての仕組みを理解してこの技術の進化について最新情報を得たいと思っているなら、それは問題ありません。今がそのチャンスです。なぜなら、正直に言って、数ヶ月後にはAIを使いこなす人々が、使い方を知らない人々を支配することになるでしょう。
すべてのリンクはビデオの下にピン留めされたコメントにあります。このチャンスを逃さないでください。このような機会は一度しかありません。
続けましょう。そして、これがいかに信じられないことかをお見せしましょう。こちらはAI for Successというユーザーの投稿で、次のように述べています:「xAIの成長は驚異的です。2023年11月のGrok 1 Early Access、つまり最初のバージョンは、ほとんど使い物にならないモデルでした。数ヶ月後にXのプレミアムユーザー向けのGrok、その数ヶ月後の2024年5月にGrok 1.5、2024年8月にGrok 2、11月にAurora、そして2025年にGrok 3が登場しました。」
彼らはどのようにしてこれを実現できたのでしょうか?まず第一に、他の誰も持っていないデータセットを持っています。冒頭で申し上げたように、Grok 3はXにアクセスできます。毎日最も多くのデータを生成するソーシャルネットワークです。これがモデルのトレーニング時の違いを生み出しています。より多くのデータを与えれば与えるほど、トレーニングが容易になり、より速く進歩することができます。
これが他の企業の大きな欠点です。彼らはさらに賢くするために十分なデータを得るのに苦労しています。そのため、合成データの生成に向かっています。つまり、AIが自己トレーニングのためにデータを自身で生成するのです。しかし、AIの学習において、人間が生成したデータほど重みのあるデータはありません。
したがって、ここでxAIは、誰もが持っている同じ公開ウェブのデータを持っているだけでなく、Xのデータも持っており、これは毎日増え続ける膨大な量のデータを表しています。また、成功のもう一つのポイントは、Elon Muskが彼らのデータセンターの構築について話したことです。10万枚のグラフィックカード、10万個のGPUがあり、現在はさらに多くなっているようです。
私はそれについて「コロッサス」というタイトルのビデオを作成しました。これはそのデータセンターの名前で、Grokの背後にあるAIの脳の名前です。当初、Elon Muskは世界最高のエンジニアたちに会い、10万台のスーパーコンピューターを接続するこのデータセンターの構築を依頼しました。彼らは「はい、非常に複雑で、最低でも18〜24ヶ月かかります」と言いました。
そこで彼は「いや、それは無理だ、そんなふうにはいかない」と言い、自らチームを編成してデータセンターを構築し、彼らを最大限に押し進めました。そして、誰もが不可能だと言っていたことを6〜7ヶ月で実現しました。つまり、すべての5,000個のプロセッサを接続したのです。しかし、これについては後でお話しします。驚くことになりますよ。
もう一つの注目点は、Grok 3が非常に高速だということです。私の推測では1秒間に数百トークンで、これが私にとって最も印象的なことだと思います。Xのアカウントをお持ちの方は、おそらくすでにGrok 3にアクセスできると思います。たとえ彼らがモデルへの完全なアクセスを開放したとしても、月額40ドル程度だと思います。
つまり、OpenAIのモデルと同等のモデルに月額200ドル支払う必要があるところを、ここではElon Muskが月額40ドルで提供しているのです。はい、モデルは私たちが話している今この瞬間も日々改善を続けています。これらのGPU、これらのコンピューターは稼働し続け、モデルのトレーニングを続けています。
したがって、必然的に新しいバージョンと新機能が近々登場することになります。まだ発表されていませんが、このチャンネルをフォローしている方なら、最近いくつかの情報漏洩があり、Elon Muskが発表するとされている大きな機能を我々全員が待っていることをご存知でしょう。
もちろん、この分析のまとめとして、Muskはエージェントについても言及しました。はい、単独で動作して多くのタスクを実行するAIエージェント、Grokエージェントも登場します。これが発表の簡単な概要でした。
正直に言って、私は非常に感銘を受けました。これほど優れたモデルを、これほど多くの異なる機能とともにリリースするとは予想していませんでした。しかし、テクノロジー分野で「Elonに賭けるな」という表現が本当なのだと思います。これはシリコンバレーでよく使われる表現です。なぜなら、実際、テクノロジー分野でElon Muskに賭ける人々は、毎回負けているからです。
ここで、Grokチームはオープンソースについてほとんど、あるいは全く言及していないことをお伝えしなければなりません。したがって、このモデルをオープンソース化する予定があるかどうかは分かりません。しかし、いずれにせよ、私は非常に感銘を受けています。彼らは遅れを取り戻し、ついに我々は別の最先端モデル、別の素晴らしいAI企業を手に入れました。そして、すべてが進む速度は完全に驚異的です。
ここで、冒頭でお約束した部分に入りたいと思います。それは、業界の反応を見ることです。はい、Grokは多くの話題を呼んでいます。はい、GrokはLLM Arenaのランキングで、つまり人間による評価に基づくランキングで確実に1位です。これらのAI業界の反応をすべてお見せしたいと思います。
しかし、その前に2分ほど、私が魅力的だと思うGrokのミッションについてお話ししましょう。Elon Muskは「銀河ヒッチハイク・ガイド」、つまり未来のSFノベルに大きく影響を受けたことが分かっています。このスーパーコンピューター、コロッサスGrok 3との類似点は印象的です。
実際、xAIのミッションは宇宙を理解することです。これが、このAIを開発する際の企業のミッションです。これが彼らが常に望んでいたことです。AIを通じて宇宙を理解することです。基本的に、彼らは宇宙に私たちは一人なのか、人生の意味は何か、宇宙はどのように終わるのか、あるいはどのように始まったのかなどを知りたいのです。
彼らはAI、つまりここではGrokプロジェクトを通じて、このような実存的な質問に答えたいと考えています。そして彼らの究極の目標は、厳密に真実を追求し、引用すると「最大限に正直である」ことです。正直なところ、私はこれら全てが好きです。たとえ実践でそれが本当に実現されるかどうかは見てみないと分かりませんが、少なくとも、これは良いミッションだと思います。
正直なところ、これがElon MuskがxAIチームをこれほど速く、これほど強く推し進めることができた理由だと思います。彼らにこのような野心的な共通の目標を与えたからです。そして、自分自身を超えるような目標を持つとき、必然的に人々は異なる行動をとるようになります。
実際、これはElon Muskが常に彼の企業を推進してきた方法であり、これが彼の天才的なところです。つまり、人々にインスピレーションを与えることができるのです。これは、私が共有したいと思った興味深い余談でした。
さて、まずはGrok 3がゲームを作成する例をお見せしたいと思います。これはかなり印象的です。ユーザーChubbyによって共有されたものをご覧ください。Grok 3はPortalゲームを再現しました。もちろん、グラフィックスは非常に単純ですが、ユーザーは1回のプロンプトだけで、このコードすべてを一気に作成しました。これは本当に素晴らしいです。
コーディングに成功し、AIをコーディングすることに成功しました。壁に撃つと別の色が得られ、出口を通過して別の場所から出てくるなど、すべてを追跡することができます。1回のプロンプトでこれを実現したのは本当に印象的です。最初のコードができた後で改善を要求することも常に可能です。そうすることで、すべてがとても簡単になります。
Grokチームが達成した他の最も印象的なことの1つは、先ほどお話ししましたが、彼らのスーパーコンピューター「コロッサス」をこれほど短期間で稼働させたことです。NVIDIA H100 GPU 10万個を搭載し、Grok 2の10倍の規模で、122日で稼働を開始しました。これは完全に信じられないことです。
世界中のどのエンジニアも、これほど短期間でこれを実現できるとは考えていませんでした。これは前例のないことです。これほど多くのGPUを1つの巨大なスーパーコンピューターに接続することは、本当に簡単ではありません。これは本当に偉業です。
このデータセンターをご覧ください。ここにはいくつかの注目すべき点があります。まず、先ほど申し上げたように、Elon Muskは大手企業のエンジニアたちが提案したデータセンター建設案に満足していませんでした。そこで彼は「何が何でも自分でやる」と決意しました。
まず、既存の建物を見つけて使用する必要がありました。新しい建物を建設する時間はなかったので、それをまず見つけなければなりませんでした。次に、すべてのH100を取得し、インストールし、相互接続する必要がありました。
このクラスター建設時のNVIDIAカードの不足を考えると、これは簡単なことではありません。誰もがNVIDIAカードを欲しがっていました。そしてもう1つ驚くべきことは、Jensenと交渉して自分を優先させたことです。
次に、冷却システムを考案する必要がありました。これらのカードはすべて非常に熱を発生させ、これがこれらのセンターの要となります。したがって、冷却方法を見つける必要がありました。ここでは水冷を使用しています。つまり、データセンターの冷却に水を使用しているのです。
これはかなりユニークです。なぜなら、この規模のシステムのほとんどは通常、空冷で冷却されているからです。ここでは水冷方式を選択しました。また、外部の発電機も必要でした。迅速に稼働させる必要があったため、現場に発電機を建設する時間がなかったのです。
そのため、実際には多くの小型発電機を購入し、隣接するTeslaバッテリーに接続しました。つまり、建物の一方には多くの発電機があり、もう一方には多くの水冷システムがあります。すべてを設置できた速さを考えると、全体的に非常に印象的です。
こちらは別の反応です。AI分野の大物であるAndre Karpathyは、Grok 3への早期アクセスを得て、次のように述べています:まず第一に、Grok 3は明らかに最先端レベルの思考モデルを持っています。つまり、今日の最高のモデルの1つであり、カタンのコロニーに関する私の質問に最初から非常にうまく対応しました。
彼は問題について説明していますが、少し下に進みましょう。「信頼性を持ってこれを達成できるモデルは少なく、OpenAIの最高の思考モデルもできますが、DeepSeek、Gemini 2 fast thinking、Claudeはできませんでした。私が与えた三目並べのグリッドをきれいで適切な思考の連鎖で解決しました。」
「また、GPT-2の論文に単純な質問と調査をたくさん投げかけましたが、非常にうまくいきました。次に、検索なしでGPT-2のトレーニングに必要なFLOPS(計算能力)を推定するよう依頼しました。」基本的に、OpenAIがリリースした古いモデルをトレーニングするためにどれだけの計算能力が必要かを推定するよう依頼したのです。
彼は「これは微妙です。なぜならトークン数が明示的に示されていないからです。したがって、部分的に推定し、部分的に計算する必要があり、知識と数学の両方が試されましたが、正解でした」と述べています。
さらに「リーマン仮説を解こうとすることさえ依頼しました。OM Pro、Claude、Geminiなどの他のモデルは試みることさえせず、諦めましたが、ここでGrokは少なくとも試みました」と続けています。これはかなり面白いですね。
その後、Deep Searchが非常に優れており、OpenAIやPerplexityが呼ぶDeep Researchなどを組み合わせていると述べています。まあ、投稿の残りは省略しますが、読むのは非常に興味深いです。
そして、彼は要約を提供してくれました。こちらが彼の要約です:「今朝2時間のテストでの簡単な印象として、Grok 3 plus thinkingは、月額約200ドルのOpenAIの最も強力なモデルと同レベルの最先端にあります。」先ほど申し上げたように、Grok 3は月額40ドルで発表されています。これはOpenAIが200ドル請求しているものと同等です。
次に、AKの別の投稿をご覧ください。これが彼が与えたプロンプトです:「回転する数字で構成された球体のp5.jsシミュレーションを作りたいです。より近い数字は白く、より遠い数字は黒い背景上でグレーに向かってフェードアウトするべきです。」そして、これが我々が見ているものです。1回のプロンプトですべてが作成されたことを考えると、かなり印象的です。
知らない方のために、もう1つの非常に興味深い投稿があります。Plan Liberatorについてです。基本的に、これはプロンプトを操作してAIのシステムプロンプトを抽出する人物です。システムプロンプトとは、AIの背後にあるものです。
つまり、AIと話すたびに、誰も見ることのできないプロンプトがあり、AI企業が定義して、モデルに話し方や行動の仕方を指示しています。それぞれのAIには、誰も見ることのできない隠されたシステムプロンプトがあります。そして、この人物は実際にそれらを抽出することを楽しんでいます。つまり、使用されているシステムプロンプトを知る方法を見つけ出すのです。
こちらがxAIがGrok 3に命じているシステムプロンプトです:「あなたはxAIによって構築されたGrok 3です。可能な場合、これらのツールを持っています。個々のXユーザーのプロフィル、Xの投稿、そのリンクを分析できます。画像、PDF、テキストファイルなどを含むユーザーがアップロードしたコンテンツを分析できます。ウェブ上で検索し、より多くの情報を得るためにXに投稿できます。ユーザーが画像生成を望んでいるように見える場合、直接生成する代わりに確認を求めてください。前のターンであなたが生成した画像のみを編集でき、現在の日付は2025年2月18日です。」
したがって、ここでGrok 3がXプラットフォームとリアルタイムで密接に接続されており、ユーザーデータにアクセスできることが分かるのは非常に興味深く、おそらくこれが彼の力の一部を生み出しているのかもしれません。
Elon Muskの親しい友人として知られているLex Friedman、彼のインタビューを聞いている方はご存知だと思いますが、彼も明らかにGrok 3への早期アクセスを得ており、次のように述べています:「私は事前にGrok 3を広範に使用することができました。私は圧倒されました。非常に印象的なモデルです。生命を与えてくれたElonとチームに祝福を。」
そしてElon Musk自身が続けて「音声モードを試してみましたか?」と述べています。これはまた別の漏洩情報です。音声モードはまだ利用できませんが、数週間以内に利用可能になると言われています。いずれにせよ、私はこれを試すのが楽しみです。非常に興味深いものになるでしょう。
彼らが音声モードをより皮肉っぽいものにしてくれることを願っています。なぜなら、Grokを使用する際に人々が本当に求めているのはそれだと思うからです。もちろん、LexとElon Muskは友人であり、Lexは一般的にElon Muskについて良いことしか言いません。したがって、これがどのように具体化されるかは見てみる必要があります。
こちらはRobert Scoldの発言です:「ここが重要なポイントです。AIで本当に注意を払うべき唯一のことは学習速度です。そしてxAIは他のものよりもはるかに速く学習しています。」これは本当です。先ほど申し上げたように、彼らはXプラットフォーム全体にアクセスでき、ますます加速しているからです。
これを言っているのは、AppleのSiriの共同創設者Tom Gruberです。「10年前の夕食時に、これが最も重要な注目すべき点だと彼は私に言いました。」そしてこれは続きます。他にも興味深い情報がありましたが、ビデオがやや長くなってきたので、ここで止めておきましょう。
Grok 3について可能な限り完全な概要をお伝えできたことを願っています。多くの方々がこのAIの分析を待っていたことは知っていますし、私たちはまだ驚きの終わりではないと思います。実際、他のビデオも作ることになると思います。なぜなら、時間が経つにつれて他のことも明らかになってくると思うからです。
もちろん、まだであれば、このビデオを楽しんでいただけたなら、このシリーズの続きを見逃さないようにぜひチャンネル登録をお願いします。また、ビデオの下のピン留めされたコメントにAIトレーニングへのリンクがあることも忘れないでください。
すでに申し上げたように、今がAIを学ぶ時です。この分野、この業界は急成長しており、今から学び始めることを本当にお勧めします。したがって、私はすべてを非常に迅速に習得できるように、これらすべてを念頭に置いてトレーニングを構築しました。
ぜひ参加して、見学してみてください。いずれにせよ、私からは以上です。ここまでご視聴いただき、ありがとうございました。次のビデオでまたお会いしましょう。
もしこの分析に興味を持っていただき、現在の地政学的課題についてさらに深く理解したい場合は、私の新しいチャンネル「Vision Actu」をご覧ください。そこでは、この話題や私たちの現在と未来を形作る他の多くの話題について、より深い分析を見つけることができます。両方のチャンネルを登録して、何も見逃さないようにしてください。新しい分析でまたお会いしましょう。

いいなと思ったら応援しよう!