【Grok-3解説】マスクが20万枚のGPUでGrok-3を強化し、DeepSeek R1の数学ランキングを圧倒！ OpenAIへの執念の復讐劇

Trans-N

2025年2月18日 17:29

ポイント

Grok-3が登場：イーロン・マスク率いるxAIが「世界で最も賢いAI」Grok-3を発表。
20万枚のGPUで訓練：Grok-3はスーパーコンピューター「Colossus」で訓練され、Grok-2の10倍の計算能力を持つ。
ランキングを席巻：数学・科学・プログラミングの分野で最先端を更新し、DeepSeek-R1やGPT-4oを圧倒。
推論特化のGrok-3 Reasoning：思考プロセスを可視化し、難題を解決できる新モデルを公開。
AIエージェント「DeepSearch」：インターネットを活用した高度な検索機能を搭載。
OpenAIとの競争激化：マスクは「世界で最も賢いAI」と豪語、OpenAIのアルトマンもGPT-4.5の準備を進める。
驚異的な数学・物理推論能力：宇宙ミッションの軌道計算やゲーム開発をこなす。
完全オープンソース化予定：数か月以内にGrok-3のソースコードを公開予定。
xAIの急成長：わずか1年でAI業界のトップレベルに到達。
未来展望：AIの推論能力と物理シミュレーションの発展により、TeslaやSpaceXの領域にも応用可能。

本文

イーロン・マスクが「世界で最も賢い大規模モデル」と称する Grok-3 がついに登場した。 20万枚のGPUを用いて訓練されたこのモデルは、まさに世界初の試みである。

予想通り、Grok-3 は複数のランキングを席巻し、o3-mini（high） や DeepSeek-R1 を打ち負かした。

人類史上初、20万枚のGPUで訓練されたモデルが誕生！

先ほど、マスク率いる xAI の3名のメンバーがライブ配信を行い、Grok-3ファミリー を公式発表した。

Grok-3ファミリーのラインナップ

Grok-3（Beta）、Grok-3 mini
初の推論モデル：Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning
- o3-mini や DeepSeek-R1 を超え、推論時の計算能力を強化
初のAIエージェント「DeepSearch」：インターネットを活用した高度な検索機能

まるで OpenAI の発表会 を思わせるような盛り上がりであった。

Grok-3の圧倒的な計算能力

公式発表によると、Grok-3の訓練計算量は Grok-2の10倍 にも及ぶという。では、その実力はどの程度なのか？

世界最大のスーパーコンピューター「Colossus」 には 20万枚のGPU が搭載されており、

第1フェーズ：10万枚のGPUで訓練（構築に122日）
第2フェーズ：20万枚のGPU（構築に92日）

この膨大な計算資源のもと、Grok-3は 数学（AIME 2024）、科学質問（GPQA）、コーディング（LCB） の分野で SOTA（最先端） を更新し、 DeepSeek-V3、Gemini-2 Pro、GPT-4o を大幅に上回る性能を発揮した。

また、Grok-3 mini も他の閉源・開源モデルと比較して、リードするか同等の性能を誇っている。

推論モデル「Grok-3 Reasoning」登場！

今回の発表で、Grok-3は 推論能力 に特化したモデル Grok-3 Reasoning も公開した。このモデルは、質問に回答する際に思考プロセスを表示 することが可能である。

「Think」モード を選択すると、Grok-3の思考過程を可視化
「Big Brain」モード も追加
AIエージェント「DeepSearch」 で深層検索が可能

「地球上で最も賢いAI」、その実力は？

数日前、マスクは「これは地球上で最も賢いAIだ」と豪語したが、それは 決して誇張ではない。

一方、OpenAI の サム・アルトマン も負けじと「GPT-4.5はAGIに近づいている」と発言し、さらには 「オープンソース化すべきか」 という投票まで実施した。

ネット上では「それなら今夜7時30分に GPT-4.5 をリリースしよう！」という提案も飛び交ったが、アルトマンは「それはちょっと…」と難色を示した。

Grok-3の発表は OpenAIにも大きな衝撃を与えた ようで、内部では全員がライブ中継を見守っていたとの噂もある。

Grok-3は究極の「スケーリング・テスト」か？

Grok-3 は究極のスケーリング法則テストであると言う人もいますが、今ではそれが真実であるようだ。

Grok-1（2023年） の登場から、Grok-1.5 → Grok-2 → Grok-3 へと進化する中で、推論能力は急速に向上したが、同時に膨大な計算資源を消費してきた。

そして Grok-3ファミリー では、ついに「テスト時の計算」を極限まで活用。

10万枚のH100 GPUで訓練された「獣」 は、もはや 他のモデルを圧倒 する存在へと進化。
Eloレーティングが1400を突破した初のモデルとなり、全てのカテゴリーで第1位を獲得。

さらに、Grok-3 Reasoning や Grok-3 mini Reasoning も、数学・科学・プログラミングの分野で o3-mini（high）、o1、DeepSeek-R1、Gemini-2 Flash Thinking を大きく超えた。

つまり、「史上最強の推論モデル」 ですら Grok-3 Reasoning に敗北 しているのだ。まさに、Grok-3こそ「世界で最も賢いモデル」と言えるだろう。

最新の数学ベンチマーク AIME 2025 においても、

Grok-3（93点）
Grok-3 mini（90点）

と、それぞれ SOTAを更新 した。

ちなみに、Grok-3の思考プロセスは o3-miniと同様の手法 を採用しており、 xAIが一部の思考過程を非公開にすることで「対策」している とのこと。

Grok-3の「推論能力」を体験しよう！

さあ、Grok-3の 驚異的な推論能力 をその目で確かめてみよう。 「Think」モード を選択して、Grok-3の高度な推論を体験してみてほしい。まずは宇宙船のミッションとして、地球からの発射、火星への着陸、そして次の発射ウィンドウで地球へ帰還する3Dアニメーションのコードを生成するという課題が提示された。この問題の難しさは、大量の数学・物理モデルの計算が必要となる点にある。それまでチームは、大規模なAIモデルに宇宙ミッションの発射ウィンドウ計算をさせたことがなかった。

「Think」モードでは、Grokの思考の過程を可視化でき、さらにはGrokが問題を解決する際にどのように考えているのかを確認することも可能である。

Grok-3は素早く完全に実行可能な3Dアニメーションを生成した。コード内では、Grok-3が数値的にケプラーの法則を解いている。

以下の画像は3Dアニメーションの一場面であり、太陽、地球、火星、宇宙船の位置関係を直感的に示している。宇宙飛行士はこのデータをもとに船外活動の時間や距離を計算することも可能である。

このアニメーションには、地球と火星を結ぶ遷移軌道が描かれており、このような軌道は26か月ごとに発生する。現在はちょうど次の発射ウィンドウへ向かう移行期間にある。研究者が結果を検証したところ、Grok-3の答えは完全に正しかった。最終的にイーロン・マスクが種明かしを行い、「実は、これはSpaceXが実際に探査している軌道と同じものだ」と明かした。そして、「2年以内に地球と火星はつながる」と自信をもって発言した。

https://mmbiz.qpic.cn/sz_mmbiz_gif/UicQ7HgWiaUb1AKNmnvAbERaxy5pkpwVzOjzOqpWttI57ibSj7aByqGAXPgMcVfrxyM3u15cR3SDGRMhsxotx1aSA/640?wx_fmt=gif&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

この発表に対してユーザーからは「Grok-3は驚異的に強力だ！」といったコメントが寄せられた。一方で、o1、o1-pro、o3-mini（high）といった他のモデルはこの問題に対応できなかった。これらのモデルも3Dアニメーションのコードを生成できたものの、「実行はできるが、宇宙船が火星にすら近づかず、ましてや地球に帰還することもなかった」と指摘された。

続いて、チームはGrok-3にゲームを制作させることに挑戦した。要求されたのは「テトリス」と「Bejeweled（宝石迷陣）」を組み合わせたゲームだった。「AIにテトリスのようなゲームを作らせるのは簡単だ。インターネット上には多くの例がある。同様に、Bejeweledのようなゲームもコピーできる」とデモンストレーションの担当者は説明した。そこで、今回は「Big Brain」モードを使用し、より多くの計算リソースを活用する形で、これら二つを組み合わせたゲームを作らせることにした。

Grok-3はPythonを使ってコードを書き始め、pygame、random、timeの3つのライブラリを用いてゲームを開発した。

そして完成したコードを実行すると、テトリスとBejeweledの要素を組み合わせたゲームが問題なく動作した。ゲームのロジックにはややランダム性があったものの、ビジュアルは美しく仕上がっていた。デモ担当者は「我々はx.aiでゲームスタジオを立ち上げる準備が整ったのでは？」と興奮気味に語り、「実際に、x.aiでAIゲームスタジオを立ち上げる予定だ」と発表した。

https://mmbiz.qpic.cn/sz_mmbiz_gif/UicQ7HgWiaUb1AKNmnvAbERaxy5pkpwVzOEE0aSOpcvMfp9hRlMdGcriafehiczPEKhYZPekJ8FYbcfJGunDeGuJ3A/640?wx_fmt=gif&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

この過程で研究者たちは、「最も優れたAIモデルは、人間のように考える能力を持ち、あらゆる可能性を模索し、自己批判や振り返りを行い、第一原理から物事を考察するべきだ」と議論した。さらにGrok-3は、自らの論理や推論過程における誤りを理解し、修正することができる。数学的推論の過程を概念化し、現実世界の問題にも応用できるという点が特に注目された。研究者は、「Grok-3を使えば、現実世界のタスクも実行可能になる。例えば、Teslaの製造やロケットの発射をAIが主導できるかもしれない」と述べた。これはまさにGrokチームが現在取り組んでいる課題である。

DeepSearch：Grok-3初のインテリジェントエージェント

驚くべきことに、今回の発表ではマスクがGrok-3の初のインテリジェントエージェント「DeepSearch」を披露した。

DeepSearchはGrokの第一世代のエージェントであり、インターネット上でより深い検索を行うことができる。これにより、ユーザーはインターネット全体やX（旧Twitter）プラットフォームを横断的に検索できるようになる。

DeepSearchは、大量の情報を分析し、高速かつ効率的に詳細で合理的な回答を提供する。さらに、情報の検索プロセスがユーザーに対して透明化されている。例えば、特定の検索範囲をXの情報のみに限定することも可能で、よりコントロールしやすく、スマートな検索が実現される。

ユーザーはDeepSearchに「次回のスターシップの打ち上げはいつ？」と尋ねると、左側には検索および推論のプロセスが表示され、右側には深い思考プロセスや現在閲覧中のウェブページの情報が示される。

そして、最終的に「2025年2月24日」と正確な回答が出された。

また、ゲームプレイヤーが「Poe 2で最もハードコアなビルドは？」と質問すると、DeepSearchは「インクイジター召喚ビルド」と回答するだけでなく、さらに「より多くの武器を入手する方法」についての攻略情報まで提示した。

これにより、従来の検索エンジンよりもはるかに効率的に情報を取得できることが示された。

Grokチームは「これからは全てのインターンが不要になるかもしれない。我々が必要なのは、AIにタスクを指示することだけだ」と述べ、「月額40ドルのコストで数十億ドルの価値を生み出せる」と強調した。

マスク：「1週間以内に全機能を公開、数か月以内に完全オープンソース化」

では、Grok-3の一般公開はいつになるのか？これについて、マスクは「Premium Plusに加入しているXユーザーはすでに利用可能」と発表した。さらに、Grokの熱心なファン向けに「SuperGrok」という専用プランも用意されており、DeepSearchや高度な思考モデルといった特別機能をアンロックできる。これにより、新機能をいち早く体験できるようになる。

新しい公式サイト「grok.com」も公開され、App Storeからもアプリをダウンロード可能である。ただし、マスクは「最新バージョンは必ずウェブ版で提供される。App Storeのバージョンはやや古い」と述べている。現在、Grok-3は日々推論機能をアップデートしており、マスクは「1週間以内にGrokの全機能を公開する」と明言した。

質疑応答

音声アシスタント版はいつリリースされる？
1週間以内にリリース予定である。

Grok-3 APIはいつ公開される？
数週間以内に公開予定である。

Grok-3の音声モードはネイティブなのか、それともテキスト読み上げ（TTS）なのか？
Grok-3の音声モードはGrok-3の派生バージョンであり、話された内容を理解し、直接音声を生成する。

Grok-3は音声をテキストに変換できるか？
問題なく可能である。この音声モデルは単なる音声認識（STT）にとどまらず、会話の記憶機能を備えており、過去のやり取りを記憶できる。

マスク氏の発言：Grok-3は数か月後に完全オープンソース化へ
マスク氏は、数か月後にGrok-3を完全にオープンソース化する予定であると述べた。

Grok-3の最も興味深い部分とは？
モデルの訓練と完全な論理推論の構築が最も困難な部分であり、それはまるで宇宙の最新の進展を常にデザインし続けるようなものだ。

史上最も難しい推論モデルをどのように設計したのか？
研究者によると、このモデルの開発には24か月を費やし、論理推論における最新の進展を確保した。データセンターはメンフィスに設置され、計算能力とエネルギー供給の両方が必要だった。GPUに電力を供給するために1/4ギガワットが必要であり、さらに冷却設備も不可欠だった。
これまで、データセンターで本格的な液冷を実現した例はなかったが、Grokのチームは成功させた。さらに、データセンターの電力供給を最適化するため、TeslaのMegapackを利用し、建物のエネルギー供給を再設計した。その結果、計算が有効であることが証明された。
また、プロジェクトの過程では異なるコンピューターを接続し、情報を共有する必要があった。この過程で、モデル間の計算負荷の不均衡が発生することもあった。一方で、建物のエネルギー供給と省エネの設計を見直し、他方で大規模モデルの設計と新しいアルゴリズムプロセスの開発を行った。研究者は、他の大規模モデルもGrok-3と同様に膨大な人的・物的リソースを必要とするのかは不明だと述べている。
今後の課題として、モデルの消費電力を削減し、データセンターの電力消費を1/4ギガワットからさらに低減することが挙げられる。これには、世界で最も効率的なデータセンターを設計する必要があるかもしれない。

AI業界のトップ研究者が高評価：「Grok-3の成果は驚異的」

ベータテストの資格を事前に得たAI研究者のKarpathy氏は、詳細なレビューを実施し、その感想を記事よりも長いレポートとして共有した。

Grok-3の推論能力は最先端

Grok-3は、ボードゲーム「カタンの開拓者（Settlers of Catan）」の難題を解決した。また、GPT-2の論文をアップロードすると、Grok-3は簡単な検索課題をこなすことができた。

リーマン予想に関しては、「これは未解決の偉大な数学的難問である」と述べるにとどまった。

「深層検索」機能の体験

この機能をテストしたところ、思考と深いリサーチを組み合わせた能力を発揮し、調査・検索を要する質問に対して高品質な回答を提供した。さらに、参考リンクも提示された。

Karpathy氏の総評

「Grok-3 + 思考力（Thinking）」のパフォーマンスは、「o1 Pro（月額200ドル）」と同等のレベルに達しており、DeepSeek-R1やGemini 2.0 Flash Thinkingを若干上回ると評価された。

わずか1年でトップレベルに到達したxAI

約1年前、xAIチームはゼロから開発をスタートし、短期間でトップレベルに到達した。これは前例のない驚異的な成果である。

Grok-3は物理シミュレーションテストにも合格し、その性能は「o3-mini」に匹敵することが証明された。

https://mmbiz.qpic.cn/sz_mmbiz_gif/UicQ7HgWiaUb1AKNmnvAbERaxy5pkpwVzOLp0o9058lxgPM5Dk54BjjGxdKbqVCWVp7fuGqSR9OQF6vljWdpxx1g/640?wx_fmt=gif&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

xAIの共同創設者のコメント

「私たちにとって、モデルやシステムの改善スピードは、個々のマイルストーンよりも重要です。Grok-3は、19か月でゼロから最先端レベルに達することが可能であることを証明しました。」

さらに、xAIのエンジニアは、新たに登場予定の「高度な音声モード」についても明らかにした。

Grok-3の登場で、xAIは再び世界トップレベルへ

Grok-3の登場により、xAIは再び世界のトップAI企業の一角としての地位を確立した。

マスク氏の言葉で総括

「どの企業が技術競争に勝つかを判断するには、その技術革新の速度の一次導関数（速度）と二次導関数（加速度）を見るだけでよい。」

xAIチームがこの瞬間に達したことは、歴史に刻まれるべき成果である。

一方、Altman氏のAGI（汎用人工知能）も準備が整いつつある。