地球上最高のLLM、Grok 3についてイーロン・マスクと全て語る

2025年2月19日 19:46

7,594 文字

Grokという言葉は、『異星の客』という小説から来ています。火星で育った男性が使用する言葉で、何かを完全に深く理解するという意味です。
コアエンジニアリングチームと最高のAIタレントがいます。必要なのは大きなクラスターから生まれる大きなインテリジェンスだけです。xAIの進歩全体を再構築できるようになりました。ベンチマークのY軸を、大規模言語モデルを訓練して人類の知識全体、インターネット全体を圧縮するために、任意の時点で実行できるGPUの総訓練FLOPSに置き換えています。インターネットはその一部ですが、実際には人類の知識全てです。インターネット全体がUSBスティックに収まる段階に来ています。全ての人間のトークンがそうなのです。
できるだけ早くGrokを無料で提供したかったので、時間があまりありませんでした。約4ヶ月でデータセンターを構築する必要があると気付きました。最初の10万GPUを稼働させるのに122日かかりましたが、これは記念碑的な努力でした。我々の知る限り、これは同種の最大のH100クラスターです。そこで止まることなく、我々が構築したいAIを実現するためには、クラスターの規模をほぼ即座に倍増する必要があると判断しました。
まだ公には話していない次のフェーズがありました。これが初めての公表になりますが、データセンターの容量を再び倍増させました。それは92日しかかかりませんでした。その間、これらすべてのGPUとコンピューティングパワーを使ってGrokを改善してきました。今日はその成果をお見せします。全ての道がGrok 3に通じているのです。前世代モデルと比べて10倍以上のコンピューティングパワー、実際には15倍くらいになります。
Grok 3は1月初めに事前訓練を終えました。モデルは現在も訓練中です。ベンチマーク数値の一部をお見せしましょう。AME（American Invitational Mathematics Examination）など3つのカテゴリーで評価しました。AMEは年1回開催されています。モデルのパフォーマンスを評価すると、Grok 3は全体的に独自のリーグにいることがわかります。その弟分のGrok miniも、他の競合モデルと比べてフロンティアに到達しています。
でも、これらのベンチマークは教科書やGitHubリポジトリの暗記を評価しているだけではないかと言われるかもしれません。実用性についてはどうでしょうか。CH arenaというプラットフォームで2週間テストを行いました。Xプラットフォーム全体が、これが次世代AIの到来かもしれないと推測していました。
CH arenaの仕組みは、製品の表面的な部分を全て取り除き、言語モデル自体のエンジンを純粋に比較します。ユーザーが1つのクエリを送信すると、2つの応答が表示されます。どちらのモデルからの応答かはわかりません。そしてユーザーが投票します。このブラインドテストで、Grok 3の初期バージョンはすでに1,400のELOスコアに達しました。他のモデルはこのレベルに達していません。
これは単一のカテゴリーだけではなく、CH arenaの全カテゴリー（指示に従う能力、コーディング等）で集計された1,400です。盲検テストで全てのカテゴリーでナンバーワンなのです。最高の領域は人間のように考える能力です。可能な解決策を全て検討し、自己批評を行い、全ての解決策を検証し、バックトラックし、また第一原理から考えることです。これは非常に重要な能力です。
我々は、最高の事前訓練モデルを強化学習で継続的に訓練することで、追加の推論能力を獲得し、訓練時だけでなくテスト時にも性能が向上すると考えています。これは完全に台本なしです。プロンプトはこれだけです。「地球から火星への着陸、そして次の打ち上げウィンドウで地球に戻る軌道の3Dアニメーションプロットのコードを生成してください」というだけです。
クエリを実行すると、Grokが考えているのが分かります。Grokの高度な推論能力の一部として、これらの思考の痕跡が見えます。問題を解決しようとする過程で、Grokが何を考えているのかを実際に読むことができます。モデルが即座に完全にコピーされないように、思考の一部を隠しています。表示されている以上の思考があります。
これは完全に台本なしなので、Grokがコーディングで小さなミスをする可能性もあり、実際に動作しないかもしれません。そのため、さらに2つのインスタンスを立ち上げて、何か問題が起きた場合に切り替えられるようにしています。2つ目の問題も用意しています。
xAIで我々が特に楽しんでいることの1つは、Grokにゲームを作らせることです。既存の一般的なゲームだけでなく、その場で新しいゲームを創造的に作らせています。面白い例の1つは、テトリスとビジュエルを組み合わせたゲームを作ることでした。
ここで重要なのは、AIにテトリスのようなゲームを作らせると、インターネット上に多くの例があるので、それをコピーできます。しかし、興味深いのは、2つのゲームを組み合わせて実際に機能する良いゲームを創造的に作り出したことです。これは創造性の始まりを見ているのです。
これは少し難しい課題なので、Big Brainと呼ばれる特別なモードを使用します。これはGrokがより多くの計算とより多くの推論を使用するモードで、実際に良い結果が得られる可能性を高めます。このゲーム作成の試みも3回実行します。私はそのゲームをプレイしましたが、かなり良いものでした。すごいですね。
Grokがバックグラウンドで考えている間に、様々なタスクでGrokがどれだけ優れているのか、具体的な数字を見てみましょう。
推論とは、問題を解決しようとする前にかなり長い時間考えるモデルのことを指します。約1ヶ月前にGrok 3の事前訓練が終了し、その後、現在のGrok 3モデルに推論能力を組み込むために懸命に取り組んできました。まだ初期段階で、モデルは現在も訓練中です。
現在お見せするのは、Grok 3推論モデルのベータバージョンと、ミニバージョンです。Grok 3ミニ推論は、より長期間訓練されたモデルで、時にはGrok 3推論よりも若干優れたパフォーマンスを示すことがあります。これは、訓練期間が短いGrok 3推論に大きな可能性があることを示しています。
3つのベンチマークを見てみましょう。数学、科学、コーディングの3つの分野です。数学では高校の競技数学の問題、科学ではPhDレベルの科学の問題、コーディングは競技プログラミングと企業の面接でよく出題されるLeetCodeの問題を選びました。これらのベンチマークで、Grok 3は他の競合モデルと比べて全体的に優れたパフォーマンスを示しています。これらのモデルは非常に賢いのです。
影付きのバーについて説明すると、これらのモデルは推論が可能で、より長く考えることができます。テスト時により多くの計算を使用し、答えを出す前により長い時間問題について考えることができます。この場合、影付きのバーは、モデルに正しい解決策を導き出す前に、同じ問題を何度も解かせた場合を示しています。モデルにこのような計算やリソースを与えると、さらに優れたパフォーマンスを示すことができます。
これは本当にエキサイティングです。AIで1つの思考チェーンを実行する代わりに、なぜ同時に複数の思考を実行しないのでしょうか。これは、訓練後もモデルの能力を継続的にスケールアップできる非常に強力な技術です。
人々はよく、ベンチマークに過適合しているのではないかと質問します。一般化についてはどうでしょうか。これは我々も自問している質問です。幸運なことに、実際のテストがあります。5日前にAME 2025が終了しました。これは高校生が参加する競技です。この新しい試験で2つのモデルを競わせたところ、非常に興味深いことに、大きい方のGrok 3推論が優れたパフォーマンスを示しました。これは、大きいモデルの一般化能力が小さいモデルと比べてはるかに強力であることを意味します。
昨年の試験では逆で、小さいモデルの方が以前の試験をよりよく学習していました。これは、モデルの真の一般化能力を示しています。17ヶ月前、Grok 0とGrok 1は高校レベルの問題をほとんど解けませんでしたが、今やGrokは大学に進学する準備ができています。人間の試験は簡単すぎて、もはや基準にならなくなるのも時間の問題です。内部的には、Grokが進化を続けるにつれて、もうすぐベンチマークがなくなってしまうでしょう。
興味深いのは、我々は基本的に数学の問題と競技プログラミングの問題という非常に特定のタスクでのみGrokの推論能力を訓練したということです。しかし、ゲーム作成を含む他の様々なタスクでも機能します。Grokは自分の間違いを検出し、考えを修正し、問題に粘り強く取り組み、様々なバリエーションを試し、最良のものを選ぶ能力を学習しているようです。数学とコーディングから学んだこれらの一般化能力を使って、他の種類の問題を解決できるのです。現実は数学の具現化なのです。
我々が本当にワクワクしているのは、Deep Thoughtのようなコンピュータがあり、テスト時に1つの非常に重要な問題のために我々のクラスター全体を使用し、全てのGPUを起動するとしたらどうなるかということです。GPUクラスターを一緒に構築していた当時、ケーブルを接続していて、最初のテストを実行したときに廊下でGPUが唸る音が聞こえたのは、ほとんど精神的な体験でした。
データセンターに入って機械をいじれるのは、実際にかなりクールなことです。例えば、ケーブルを何本か抜いて、訓練セットアップが安定して動作し続けていることを確認しました。これは、他のAIチームは通常行わないことですが、信頼性と可能なことの新しいレベルを完全に解放します。
さて、リーマン予想はいつ解けるでしょうか。最も簡単な解決策は、可能な全ての文字列を列挙することです。十分な計算能力があれば可能です。私の予測では、3年前に言ったように、今から2年後に2つのことが起こります。機械がメダルを獲得するでしょう。チューリング賞、フィールズ賞、そしてノーベル賞です。おそらく専門家と協力してですが。今年か来年かということですね。
Grokが2つの問題について考えるのを終えたようです。物理の問題を見てみましょう。ここでは中間過程は省略されています。Grokの回答を見てみましょう。Matplotlibを使用したPythonスクリプトを説明しています。コードを見てみましょう。合理的なことをしているように見えます。ケプラーの法則を数値的に解いているようです。これが機能するかどうか確認する方法は1つしかありません。コードを実行してみましょう。
Grokは地球と火星という2つの惑星をアニメーション化しています。緑の球体は、地球と火星の間を移動する宇宙船です。地球から火星への旅が見えます。そして、宇宙飛行士が適切なタイミングで無事に帰還するように見えます。これは即席で生成されたものなので、実際に正しい解決策かどうかはすぐには分かりません。SpaceXの同僚に確認してもらう必要があります。かなり近いですね。実際の軌道には考慮すべき複雑な要素がたくさんありますが、これはかなり近い表現です。
Grokからの出力も見てみましょう。Pythonスクリプトを書いて、何をしているのか説明しています。コードを見ると、定数が定義され、色が設定され、テトリスのピースも用意されています。一見しただけでは良いかどうか判断が難しいので、実行して確認してみましょう。
これはテトリスのように見えますが、色が少し違います。ビジュエルには、同じ色のビジュエルを3つ揃えると消えて重力が働くというメカニズムがあります。色が同じブロックを3つ以上つなげるとどうなるでしょうか。何か起こりましたね。このバージョンでGrokが行ったのは、同じ色のブロックを3つ以上一列に並べると、重力が働いて消え、他のブロックが落下するようです。テトリスのメカニズムがまだあるのか気になります。列が揃った場合に消えるのかどうか。
xAIでAIゲームスタジオを立ち上げることにしました。AIゲームの開発に興味がある方は、xAIに参加してください。今夜、AIゲームスタジオの立ち上げを発表します。
今日は、Deep Searchを紹介します。これは、Grokエージェントの第一世代で、エンジニアや研究者、科学者のコーディングを支援するだけでなく、皆さんが日々持つ質問に答えるのを助けます。次世代の検索エンジンのようなもので、宇宙を理解するのを本当に助けてくれます。例えば、「次のStarship打ち上げ日はいつ？」というような質問を始められます。
試してみましょう。左側には高レベルのプログレスバーが表示されます。モデルは単一の検索を行うだけでなく、ユーザーの意図は何か、どのような事実を考慮すべきか、同時にどれだけ多くのウェブサイトを読んでその内容を確認すべきかを深く考えます。特定のトピックを本当に調べたい場合、何百時間もかかるGoogleでの検索時間を節約できます。
右側には、現在のモデルが何をしているか、どのウェブサイトを閲覧しているか、どのソースを確認しているかの要約が箇条書きで表示されます。多くの場合、最終的な回答を出力する前に、異なるソースを相互に検証して回答が正しいことを確認します。同時に、いくつかのクエリを実行することもできます。
ゲーマーですよね？Path of Exileのハードコアリーグで、最高で最も人気のあるビルドは何でしょうか？ハードコアラダーを見るのが早い方法かもしれませんが、モデルがどうするか見てみましょう。
また、例えば、March Madnessについて予測するのはどうでしょうか？ウォーレン・バフェットが、March Madnessの勝利ツリー全体を正確に当てることができれば10億ドルを賭けているのは面白いですね。AIがバフェットから10億ドルを獲得するのを助けてくれたら、かなり良い投資になりそうですね。
クエリを実行して、モデルがどうするか見てみましょう。最初のものに戻ってみましょう。バフェットはこれを想定していませんでしたね。もう完了しています。
結果が出ました。モデルは約1分考えました。重要なポイントは、次のStarshipは2月24日以降で、それより早くはないということです。もっと早くなるかもしれません。モデルが何をしたのか下を見ていきましょう。フライト7の調査を行い、何が起こって地上に戻されたのか、FCCのファイリングをデータ収集から調べました。
スクロールを続けると、テーブルが作成されています。xAIでは、最初のテーブルが作成されるまでの時間が唯一重要な遅延だと冗談を言っています。これがモデルが推論を行い、全てのソースを調べる方法です。
ゲームの方も見てみましょう。このケースでは、ビルドがあって...驚くべき事実は、他のビルドについて12のクラスを調べたことです。ゲームが最初に出たとき、Minionビルドがかなり人気でしたが、今はInvokerが世界を支配しています。間違いなくInvoker monkですね。その後にStorm Waverが続き、マッピングが本当に得意です。
March Madnessはどうでしょう。Deep Searchの興味深い点の1つは、サブタスクを表示するパネルに入り、左下のボタンをクリックできることです。この場合、Grokの思考を読み進めることができ、モデルがどの情報を信頼できると考えているのか、どうやって異なる情報源を相互検証しているのかがわかります。これにより、検索体験と情報検索プロセス全体がユーザーにとってより透明になります。
まずはXのプレミアムプラスサブスクライバーから始めて、最初のグループがアクセスを得ることになります。高度な機能を全て見られるようにXアプリをアップデートしてください。今まさに更新をリリースしたところです。Grokへの早期アクセスに興味がある方は、プレミアムプラスにサインアップしてください。
また、最も高度な機能と新機能への最早期アクセスを望む本当のGrokファンのために、Super Grokと呼ばれる別のサブスクリプションを開始することを発表します。これは専用のGrokアプリとウェブサイトxai.aiのためのものです。新しいウェブサイトはgrok.comと呼ばれます。予想できなかったでしょう？
また、iOSアプリストアでGrokアプリを見つけることができ、さらに洗練された、完全にGrokに焦点を当てた体験を提供します。Grokを簡単に利用できるようにしたい場合は、ワンタップで利用可能です。
ウェブブラウザ上のgrok.comバージョンが最新かつ最も高度なバージョンになります。アプリに実装してアプリストアの承認を得るには時間がかかりますし、電話形式では制限があるためです。そのため、Grokの最も強力なバージョンと最新バージョンは、grok.comのウェブバージョンになります。
アプリでGrok freeという名前に注目してください。そう、それが手がかりですね。Grok freeと表示され、Grok 3と表示されていない場合、Grokはまだ到着していませんが、今日中にこれをロールアウトするために懸命に取り組んでいます。そして、今後数日でさらに多くの人々に提供していきます。
携帯電話のアプリもアップデートしてください。思考モードやDeep Searchなど、今日紹介した全てのツールを実際に手に入れることができます。皆さんからのフィードバックを楽しみにしています。
これはベータ版だということを強調しておく必要があります。最初は不完全な部分があることを想定してください。しかし、ほぼ毎日、実際に毎日改善されていきます。より洗練されたバージョンを望むなら、おそらく1週間待つことをお勧めしますが、文字通り毎日改善が期待できます。
また、音声対話も提供する予定です。今日試してみましたが、かなり上手く機能していますが、もう少し洗練が必要です。人と話すように文字通り会話できるようになります。実際にGrokの最高の体験の1つだと思いますが、それは約1週間後になる予定です。

地球上最高のLLM、Grok 3についてイーロン・マスクと全て語る

いいなと思ったら応援しよう！