見出し画像

GROK 3登場!『世界で最も賢いAIモデル』

5,578 文字

イーロン・マスクが本当にやってのけました。世界で最も賢いAIモデル、少なくとも公開されているAIモデルの中で最も賢いものをリリースしました。このビデオでは、Grok 3について知っておくべきことすべて、つまりベンチマークのパフォーマンス、推論能力、エージェント機能などについて詳しく説明していきます。
しかしまず、xAIの進む速さについて考えてみましょう。この会社は2023年3月に設立されたばかりで、設立からまだ2年も経っていないのに、すでにAI機能の最前線を押し進めています。
そうですね。去年の4月、イーロンはxAIが成功するため、最高のAIを作るためには、独自のデータセンターを構築する必要があると判断しました。Grok 3をできるだけ早くお届けしたかったので、時間的余裕はありませんでした。データセンターを約4ヶ月で構築しなければならないと気づき、結果的に最初の10万基のGPUを稼働させるまでに122日かかりました。これは途方もない努力でした。私たちが望むようなAIを構築するためには、クラスターの規模を即座に倍増させる必要があると判断しました。
そこで、今回初めて公に話すのですが、データセンターの容量をさらに倍増させる新たなフェーズに入りました。その作業にはわずか92日しかかかりませんでした。その間、これらすべてのGPUとコンピューティングパワーを使用してGrokを改良し続け、今日はその成果をお見せしたいと思います。
ベンチマークの結果に入っていきましょう。青色で示されているのは、Grok 3とGrok 3 miniで、これらはxAIの非チェーンオブソート(非推論)モデルです。基本的にGoogleのGemini 2 Pro、OpenAIのGPT 4、AnthropicのClaude 3.5 Sonnetなどと同等のものです。
ご覧の通り、Grok 3モデルは3つのベンチマークすべてで他のモデルを大きく上回っています。数学のベンチマークであるAMCでは52%のスコアを記録し、これに近づいているのはDeepSeek v3の39%だけですが、これはGrok 3 miniすら超えていません。PhD レベルの科学の質問で構成されるGP QAベンチマークでも、Grok 3は75%というスコアで他のすべてのモデルを大きくリードしています。Grok 3 miniも65%というスコアでGemini 2 ProとClaude 3.5 Sonnetと同点です。
最後にコーディングベンチマークでは、Grok 3は57%というスコアで群を抜いており、Grok 3 miniは41%のスコアで2位を確保しています。
ここで「これらのスコアはそれほど印象的ではないように見える。もっと良いスコアを見たことがある」と思われるかもしれません。そしてその通りです。なぜなら、まだ推論モデルについて触れていないからです。これはxAIの非チェーンオブソートモデル、つまりGPT 4のような非推論モデルであることを覚えておいてください。OpenAIがo1モデルとo3 miniモデルを持っているように、xAIも独自のより高度な推論モデルを持っています。
しかしそれについて触れる前に、xAIは実際にGrok 3モデルの初期バージョンを「chocolate」というコードネームでLMSc Chatbot Arenaでテストしました。これは、LLMどうしを対戦させ、ランダムに選ばれた人々が盲目的に投票するチャットボットアリーナです。文字通り誰でもこれらのモデルに投票でき、どのモデルを人々が実際に好むかを実感できます。
ご覧の通り、これまで達成されたことのない1,400 ELOに到達し、Gemini 2、Flash Thinking、DeepSeek R1、GPT 4、o1などの最高モデルを凌駕しています。この盲目テストで全面的に1位を獲得し、まだ上昇を続けています。実際、私たちはモデルのバージョンを更新し続けなければなりません。現在1,400 ELOでまだ上昇中です。実際、ここでテストしたものよりもはるかに優れているバージョンのモデルがあります。どこまで到達するか見てみましょう。それが今日お話しするモデルです。
実際、Grok 3を使用している場合、ほぼ毎日改善に気付くかもしれません。私たちは継続的にモデルを改良しているので、文字通り24時間以内に改善が見られます。
ここからさらに興味深くなります。彼らは推論モデル、つまり思考能力を備えたGrok 3を紹介しました。テキストボックスの下に小さな「think」ボタンがあるのが分かります。このモデルが動き出すと、その思考の連鎖がリアルタイムで展開されるのを実際に見ることができます。ただし、表示を簡略化し、もちろん知的財産を保護するために、完全な推論プロセスの要約版を見ているのだと彼らは言及しています。
しかし、この要約されたビューでさえ、モデルが複雑な問題をどのように推論しているかについて魅力的な洞察を与えてくれます。後ほど、これが実際に驚くべき例を見ることになります。しかし今は、xAIの研究者の一人であるトニーが、Grok 3の推論モデルのパフォーマンスについて、そして一般化する能力についても説明しているのを見てみましょう。
はい、Grokがこれらの興味深く挑戦的なベンチマークでどのように行うか見てみましょう。推論とは、問題を解こうとする前にかなり長い時間考えるモデルを指します。この場合、約1ヶ月前にGrok 3の事前トレーニングが終了し、その後、現在のGrok 3モデルに推論能力を組み込むために懸命に取り組みました。
しかし、これはまだ初期段階で、モデルは現在もトレーニング中です。現在お見せするのは、Grok 3推論モデルのベータバージョンです。同時に、推論モデルのミニバージョンもトレーニングしています。このグラフでは、Grok 3推論ベータとGrok 3ミニ推論が見られます。Grok 3ミニ推論は実際にはより長期間トレーニングされたモデルで、時にはGrok 3推論よりもわずかに良いパフォーマンスを示すことがあります。
これは、Grok 3推論がトレーニング期間が短いため、まだ大きな可能性があることを意味しています。それでは、これらの3つのベンチマークでどのようなパフォーマンスを示すか見てみましょう。ジミーも既に紹介しましたが、基本的に数学、科学、コーディングの3つの分野を見ています。
数学では高校の競技数学の問題を選び、科学ではPhDレベルの科学の質問を選んでいます。コーディングも実際にかなり挑戦的で、競技プログラミングや、企業の面接でよく出題されるLeetCodeのような面接問題を含んでいます。これらのベンチマークで、Grok 3は他の競合モデルと比較して、全体的にかなり良いパフォーマンスを示しています。非常に有望ですね。これらのモデルは非常に賢いです。
トニー、これらの影付きのバーは何を表していますか?はい、良い質問ですね。これらのモデルは推論できるため考えることができます。より長く考えることもできます。より多くのテストとコンピュートを使用できます。つまり、答えを出す前により多くの時間を使って問題について推論し考えることができます。
この場合、影付きのバーは、モデルにより多くの時間を与えたことを意味します。正しい解決策を結論付けようとする前に、同じ問題を何度も解くことができます。このコンピュートやこの種の予算をモデルに与えると、モデルはさらに良いパフォーマンスを示すことができます。これが基本的に右側の影付きのバーの意味です。
これは本当にエキサイティングですね。AIと1つの思考の連鎖を行う代わりに、なぜ同時に複数の思考を行わないのでしょうか?そうですね、これはトレーニング後にモデルの能力を継続的にスケールアップできる非常に強力な技術です。人々はよく、私たちが現在のベンチマークにオーバーフィットしているのではないかと尋ねます。
はい、一般化についてはどうでしょうか?これは確かに私たち自身も問うている質問です。現在のベンチマークにオーバーフィットしているかどうかについてです。幸運なことに、実際のテストがあります。約5日前にAMC 2025が終了しました。これは高校生が競うベンチマークです。この新しい試験で2つのモデルを競わせてみました。
非常に興味深いことに、大きい方のGrok 3推論は、この新しい試験で良い成績を収めました。これは、大きいモデルの一般化能力が小さいモデルと比べてはるかに強いことを意味します。昨年の試験と比較すると、実際にこれは逆で、小さいモデルの方が以前の試験をより良く学習していました。これは実際にモデルの真の一般化を示しています。
そうですね。17ヶ月前、私たちのGrok 0とGrok 1は高校レベルの問題をほとんど解けませんでした。そして今や、Grokは大学に進学する準備ができているということですね。そうですね。人間の試験が完璧になり、簡単すぎるようになるまでそれほど時間はかからないでしょう。
これはかなり驚くべきことです。xAIは他のAI企業と比べて本当に異なるレベルで運営されています。この短期間で最先端の推論モデルをリリースすることは驚異的です。もちろん、彼らには秘密兵器がいます。イーロン・マスクです。彼にはこれを実現するためのリソース、影響力、推進力があります。それでも、彼らがこれを成し遂げられるとは本当に思っていませんでした。
これが公開されている最高のAIモデルになったことは言及しておくべきですが、OpenAIが非公開でさらに優れたものを持っていることは既に分かっています。彼らはo3 miniをリリースしましたが、完全なo3モデルについては発表のみで、これまでに示された内容によると、AMCベンチマークで96%、GPAで87%のスコアを記録し、これはGrok 3推論と同等かわずかに上回っています。
とはいえ、xAIもまた間違いなく舞台裏でさらに高度なモデルを開発中でしょう。いずれにせよ、これは信じられないほど印象的なリリースで、まだxAIを業界のトッププレイヤーとして認識していない人がいれば、今こそ認識すべきでしょう。
最後に、先ほど簡単に触れた、Grok 3推論が実際に動作する驚くべき例を見てみましょう。彼らはモデルに、地球から火星への打ち上げ、着陸、そして次の打ち上げウィンドウで地球に戻るまでの3D軌道のアニメーションコードを生成するよう依頼しました。
これが私たちが出題した物理の問題です。ここでは関数を折りたたんでいるので隠れていますが、その下にGrokの回答があります。まずPythonスクリプトをmatplotlibを使用して説明し、すべてのコードを提供しています。コードを見てみましょう。合理的なことをしているように見えます。完全に外れてはいません。
ここでケプラーの法則を解いているようですね。おそらくケプラーの法則を数値的に解いているのでしょう。これが機能しているかどうかを確認する方法は1つしかありません。試してみましょう。コードを実行してみましょう。
はい、Grokは地球と火星という2つの惑星をアニメーション化しています。そして緑色の球体が、地球と火星の間を移動する乗り物、つまり宇宙船です。地球から火星への旅が見えます。そして確かに、宇宙飛行士は適切なタイミングで無事に帰還しているように見えます。
もちろん、これは即座に生成されたものなので、これが実際に正しい解決策かどうかはこれから確認します。より詳しく調べてみましょう。宇宙の専門家に連絡して、これが正当なものかどうか確認してもらいましょう。かなり近いですね。実際の軌道では考慮しなければならない多くの複雑な要素がありますが、これはかなり実際の軌道に近いものです。
最後にもう1つ話しておかなければならないことがあります。それはGrokの新しいエージェント機能です。これについてはあまり詳しく説明しませんが、彼らはDeep Searchを導入しました。これは基本的にOpenAIのDeep Researchとまったく同じものです。このエージェントは自律的にウェブ上で研究を行い、数百のソースを同時に調査し、数分以内に(時にはそれ以上かかることもありますが)その調査結果のレポートを生成します。先ほど見た「think」ボタンと同様に、テキストボックスの下に別のボタンとして配置される予定です。
全体として、再び非常に印象的なリリースとなりました。xAIをトッププレイヤーとして認識せざるを得ません。正直なところ、現在アメリカのAI企業の中で誰がリードしているかと言えば、私はまだOpenAIだと言わざるを得ませんが、4ヶ月前ほど明確ではありません。これから数年の間に誰が頂点に立つのか、本当に分かりません。
しかし、これについて皆さんはどう思いますか?コメント欄で教えてください。OpenAIがまだ優位に立っていると思いますか?それともxAIが追い上げているでしょうか?
とにかく、これがGrok 3のリリースです。Xのプレミアムサブスクリプションを持っているか、新しい公式ウェブサイトgrok.comを通じて今すぐ試すことができます。iOSにもアプリがありますが、Androidについてはまだ確認できていません。このビデオを楽しんでいただけたと思います。今後も同様のAIニュースを最新情報として受け取りたい方は、ぜひチャンネル登録ボタンを押してください。

いいなと思ったら応援しよう!