イーロン・マスクのGrok3が全AI業界を震撼させる（全てを凌駕）

2025年2月18日 19:38

6,918 文字

Grok3が世界で最も賢いAIだとイーロン・マスクが述べた時、彼は単にハイプトレインに乗っていたわけではありませんでした。今日発表されたGrok3は、様々なベンチマークにおいて、他を圧倒的に凌駕する世界最高のAIです。今回の動画では、Grok3に関する全ての発表内容を解説し、なぜ現時点で世界最高のAIなのかをお見せしていきます。
まず多くの人が注目するのはベンチマークでしょう。推論機能のないGrok3のベンチマークを見てみると、その結果は驚くべきものでした。Grok3とGrok3ミニは、Gemini 2、DeepSeek V3、Claude 3.5 Sonnet、そして最近アップデートされたGPT4oといった最新鋭のモデルを全て上回っています。これは本当に驚くべき結果です。ベンチマークが重要だと思われる方もいますが、後ほどチームが新しいベンチマークでGrok3をテストした結果も示しており、そこでも優れた性能を発揮しています。
大規模なトレーニングによって、モデルがより賢くなったことは明らかで、スケーリング則も依然として有効に機能しています。実際、モデルは現在も学習を続けているところです。これは私たちのベンチマーク数値の予備的な結果です。Grok3を3つの異なるカテゴリーで評価しました。一般的な数学的推論能力、科学技術に関する一般知識、そしてコンピュータサイエンスのコーディングです。
アメリカ数学招待試験（AMI）は年に一度実施されていますが、モデルの性能を評価すると、Grok3は全ての分野で他を圧倒しています。その弟分のGrok3ミニでさえ、他の競合モデルと比べてフロンティアに到達しています。この時点で「これらのベンチマークは単にテキストブックやGitHubリポジトリの暗記を評価しているだけではないか」と言われるかもしれません。実際の有用性はどうなのか、これらのモデルを製品として実際に使用してみてはどうかということですね。
Grok3チームの素晴らしい点の一つは、彼らのモデルをチャットボットアリーナに参加させたことです。チャットボットアリーナについてご存じない方のために説明すると、これは標準テストとは異なります。基本的に2つのAIモデルがAIに質問をした際の応答を提供し、その2つの応答のうちどちらが良いと思うかを選択するテストです。これはブラインドテストなので、どのモデルがどちらかは分かりません。単に応答を受け取り、より良いと思う方をクリックするだけです。そして時間の経過とともに、最も多くの勝利を収めたモデルが明らかになります。現在、チャットボットアリーナで1位のモデルはGrok3です。つまり、モデル名によるバイアスがない状態でのブラインドテストでも、Grok3は明確に勝利を収めています。これはまだ推論機能のないモデルの結果だということを覚えておいてください。
私たちはGrok3モデルのブラインドテストを開始しました。コードネームはチョコレート、そうですホットチョコレートです。このテストは2週間にわたってCHアリーナというプラットフォームで実施されています。このプラットフォーム全体が、次世代のAIが来るのではないかと推測していたほどです。
CHアリーナの仕組みについて説明すると、製品の表面的な部分を全て取り除き、AGIの言語モデル自体のエンジンを純粋に比較します。ユーザーが1つのクエリを送信すると、2つの応答が表示されますが、どのモデルからの応答かは分かりません。そしてユーザーが投票を行います。このブラインドテストで、Grok3の初期バージョンはすでに1,400という評価スコアに達しました。他のモデルは全てのモデルとの比較においてこのスコアには達していません。これは単一のカテゴリーだけではなく、チャットボット機能、指示に従う能力、コーディングなど、全てのカテゴリーを合わせた総合スコアが1,400なのです。しかも、まだ上昇を続けています。実際、私たちはここでテストしたものよりもさらに優れたバージョンのモデルを持っています。どこまで到達するか見守っていきましょう。
実際、Grok3を使用している方は、ほぼ毎日改善を感じられるかもしれません。私たちは継続的にモデルを改善しているので、24時間以内でも改善を実感できるはずです。
さて、ここからが本題です。推論モデルについてです。これらのモデルは、即座に応答を返すのではなく、より長い時間をかけて考えるモデルです。なぜこのようなモデルを作るのかというと、より長い時間をかけて考えることで、より質の高い応答にアクセスでき、より正確で複雑な問題に取り組むことができるからです。これは業界として私たちが取り組んでいる方向性であり、有望な結果をもたらしており、真に賢いAIへの道を切り開くと考えられています。
Grok3の推論能力を見てみると、思考モデルの面でも、多くの人々が世界最高のAIと称賛した最近デビューしたo3ミニを上回っています。残念ながら、o3ミニは現在2位となっています。
では、これらの興味深い挑戦的なベンチマークでGrok3がどのような性能を発揮したか見てみましょう。推論とは、問題を解決しようとする前にかなり長い時間考えるモデルのことを指します。約1ヶ月前にGrok3の事前トレーニングが終了し、その後、現在のGrok3モデルに推論能力を組み込むために懸命に取り組んできました。ただし、これはまだ初期段階で、モデルは現在も学習を続けています。
現在お見せするのは、Grok3推論モデルのベータバージョンと、ミニバージョンの推論モデルです。Grok3ミニ推論は、より長い時間トレーニングを行ったモデルで、時にはGrok3推論よりも若干良い性能を示すことがあります。これは、Grok3推論にはまだ大きな可能性があることを示しています。なぜなら、トレーニング時間がずっと短いからです。
では、3つのベンチマークでの性能を見てみましょう。ジミーも説明したように、数学、科学、コーディングの3つの分野を見ています。数学では高校の競技問題を選び、科学では博士レベルの科学の問題を選びました。コーディングも非常に難しく、競技プログラミングや、企業の面接でよく出題されるLeetCodeの問題を含んでいます。これらのベンチマークで、Grok3は他の競合モデルと比べて全体的に非常に良い性能を示しています。これらのモデルは非常に賢いということですね。
トニー、それらの影付きのバーは何を示しているのですか？
ああ、良い質問ですね。これらのモデルは推論できるので、より長く考えることができます。より多くのテストと計算時間を費やすことができます。つまり、答えを出す前に、より多くの時間を使って問題について推論し、考えることができるのです。この場合、影付きのバーは、モデルにより多くの時間を与えた場合を示しています。同じ問題を何度も解かせて、正しい解決策を導き出すことができます。このような計算時間やリソースをモデルに与えると、さらに良い性能を発揮できることが分かりました。これが棒グラフの影付き部分が示すものです。
これは本当にエキサイティングですね。AIと一つの思考の連鎖を行うのではなく、なぜ同時に複数の思考を行わないのでしょうか？
これは、トレーニング後もモデルの能力を継続的にスケールアップできる非常に強力な技術です。
彼らはまた、これが単に長時間のトレーニングと大量のデータによる過学習なのではないか、つまりテストの一部を単に暗記しているだけなのではないかという疑問を持ちました。そこで、新しいAMI2025でテストを行い、その結果は驚くべきものでした。
人々はよく、私たちは現在のベンチマークに過学習しているのではないかと質問します。幸いなことに、実際のテストがあります。約5日前にAMI2025が終了しました。これは高校生が参加する特定のベンチマークです。この新しい試験で2つのモデルを競わせたところ、非常に興味深いことに、大きい方のGrok3推論は、この新しい試験でより良い成績を収めました。これは、大きいモデルの汎化能力が小さいモデルと比べてはるかに強いことを意味します。
昨年の試験と比較すると、実は逆の結果となりました。小さいモデルの方が以前の試験をより良く学習していたのです。これは、モデルの真の汎化能力を示しています。
そうですね。17ヶ月前、私たちのGrok0とGrok1は高校レベルの問題をほとんど解けませんでした。今では、Grokは大学に進学する準備ができているということですね。
そうですね。人間の試験が完璧になるまでそれほど時間はかからないでしょう。試験が簡単すぎるものになってしまうでしょう。
内部的には、Grokが進化を続けるにつれて、私たちが期待していることについて話し合っていますが、すぐにベンチマークがなくなってしまうでしょう。
では、これらの推論能力が実際にどのように機能するのか見てみましょう。
ジミーが言ったように、私たちはGrokに高度な推論能力を追加し、ここ数週間でかなり集中的にテストを行ってきました。Grokが難しい推論問題をどのように解決するのか、少し味見をしていただくために、2つの小さな問題を用意しました。1つは物理学の問題で、もう1つはGrokが書くゲームです。
物理学の問題では、地球から火星への軌道移動、そして後に火星から地球への帰還軌道を描くことをGrokに要求します。これにはGrokが理解しなければならない物理学の知識が必要です。Grokに実現可能な軌道を計算し、それを私たちが見られるようにプロットすることを要求します。
ちなみに、これは全く台本なしです。これがプロンプトの全てです。
そうです。これはGrokのインターフェースで、ここに表示されているテキストを入力しました。「地球からの打ち上げ、火星への着陸、そして次の打ち上げウィンドウでの地球への帰還の3Dアニメーションプロットのコードを生成してください」というものです。
クエリを開始すると、Grokが考え始めているのが分かります。Grokの高度な推論能力の一部として、これらの思考の痕跡が見えます。問題を解決しようとする過程で、Grokが何を考えているのかを実際に読むことができます。
ただし、モデルが即座にコピーされないように、思考の一部を隠しています。表示されているよりも多くの思考が行われています。
さて、これが私たちの小さな物理学の問題でした。ここでFSを折りたたんでいるので隠れていますが、その下にGrokの回答が表示されています。Matplotlib（マットプロットリブ）を使用したPythonスクリプトを説明し、全てのコードを提供しています。
コードを簡単に見てみましょう。ここでは合理的なことをしているようですね。完全に的外れではありません。ケプラーの法則を解いているようです。数値的にケプラーの法則を解いているのかもしれません。
これが機能しているかどうかを確認する方法は一つしかありません。コードを実行してみましょう。
地球と火星という2つの惑星がアニメーション表示されています。緑色の球体は、地球と火星の間を移動する宇宙船です。地球から火星への旅が見えます。そして確かに、宇宙飛行士は適切なタイミングで無事に帰還しているようです。
これは今その場で生成されたものなので、実際に正しい解決策かどうかは分かりません。より詳しく確認する必要があります。SpaceXの同僚に電話して、これが正当なものかどうか確認する必要がありますね。
かなり近いですね。実際の軌道では考慮しなければならない複雑な要素が多くありますが、これはかなり実際に近い形になっています。
Grok3はまた、エージェント時代に突入しました。これは私も驚きではありません。AIエージェントは2025年以降のテーマとなるでしょう。そして彼らは再び製品をリリースしました。正直なところ、これらの企業が全く同じ名前を付けていることに驚いています。彼らも同様にDeep Research、この場合はDeep Searchと呼んでいます。
今日、私たちは新製品のDeep Searchを発表します。これは、エンジニアや研究者、科学者のコーディングを支援するだけでなく、皆さんが日常的に持つ質問に答えるのを助けるGrokエージェントの第一世代です。これは、宇宙を理解するのを本当に助けてくれる次世代の検索エンジンのようなものです。例えば、「次のStarshipの打ち上げ日はいつですか？」というような質問を始めることができます。
試してみましょう。左側には高レベルのプログレスバーが表示されています。モデルは現在のシステムのような単一の検索を行うのではなく、ユーザーの意図は何か、どのような事実を考慮すべきか、同時にどれだけ多くのウェブサイトの内容を読むべきかについて深く考えます。特定のトピックについて本当に調べたい場合、これは何百時間ものGoogle検索の時間を節約できます。
右側には、現在のモデルがどのウェブサイトを閲覧し、どのソースを確認しているかの要約が箇条書きで表示されています。多くの場合、異なるソースを相互検証して、最終的な回答が正しいことを確認してから出力します。
同時に、いくつかのクエリを実行することもできます。ゲーマーですよね？では、Path of Exileのハードコアリーグで最高かつ最も人気のあるビルドは何でしょうか？技術的にはハードコアラダーを見るのが早い方法かもしれませんが、モデルがどうするか見てみましょう。
また、もっと面白いことをやってみましょう。例えば、マーチマッドネスについて予測を立ててみましょう。これは面白いですね。ウォーレン・バフェットは、マーチマッドネスの勝利ツリー全体を正確に当てることができれば10億ドルを賭けています。AIがバフェットから10億ドルを獲得するのを助けてくれるなら、かなり良い投資になりそうですね。
このDeep Searchの素晴らしい機能の一つは、モデルの思考の連鎖を見ることができることです。モデルが望んだ応答を返さない場合、モデルがどのように推論を行い、検索データからその結論に至ったのかを見ることができます。
これは本当に有用だと思います。なぜなら、モデルをできるだけ透明にすることについて話し合っており、これによってさらに有用になるからです。望む応答が得られない場合、実際にモデルの思考を見て、その理由を理解することができます。この場合、実際にGrokの思考をスクロールして読むことができ、モデルが信頼できると考える情報は何か、そうでないものは何か、どのように異なる情報源を相互検証するのかを知ることができます。
これにより、検索体験と情報検索プロセス全体がユーザーにとってより透明になります。これは他のどの検索エンジンよりも強力です。文字通り、Xからのソースのみを使用するように指示することができ、モデルはそれを尊重しようとします。
つまり、より制御可能で、より知的なのです。ウェブやソーシャルメディアで30分から1時間かかる研究を、このモデルに任せて10分後に戻ってくれば、1時間分の作業を完了しているということです。本質的にはそういうことです。
さて、このAIがどのようにリリースされるのか気になっている方のために、彼らはgrok.comという新しいウェブサイトについて話しています。この動画を録画している時点では、残念ながらウェブサイトはダウンしています。おそらく期待以上の視聴者数でサイトがダウンしてしまったのでしょう。
基本的にgrok.comで、Super Grokにもアクセスできます。これは彼らのウェブサイト上で最も高度な機能と新機能への最早期アクセスを提供するアプリです。興味のある方はぜひチェックしてみてください。これは専用のGrokアプリとウェブサイト用です。
私たちの新しいウェブサイトはgrok.comと呼ばれています。また、iOSアプリストアでGrokアプリを見つけることもできます。より洗練された体験を提供し、Grokに完全に特化したアプリです。Grokをワンタップで簡単に利用したい場合に便利です。
ウェブブラウザ上のgrok.comバージョンが、最新かつ最も高度なバージョンになります。なぜなら、アプリに何かを組み込んでアップストアの承認を得るには時間がかかるからです。また、スマートフォン形式では制限があるため、grok.comのウェブバージョンが最も強力で最新のバージョンとなります。
アプリでGrok3という名前に注意してください。その名前が見つかれば、それがGrokだということです。Grok3と表示されている場合は、まだGrokが到着していませんが、今日のリリースに向けて懸命に取り組んでいます。

イーロン・マスクのGrok3が全AI業界を震撼させる（全てを凌駕）

いいなと思ったら応援しよう！