見出し画像

OpenAI創設メンバーAndrej KarpathyのGrok-3に関する見解

ポイント

  • Grok-3の初期印象: 最先端の思考モデルを搭載し、高度な質問に優れた回答を示す。

  • プログラミングタスクの評価: 「カタンの開拓者」のボードゲームコード生成に成功。一方で、Unicodeの処理には失敗。

  • Tic-Tac-Toeのテスト: 基本的なボード解析は成功するが、高度な問題生成には失敗。

  • 数学的推論能力: GPT-2のトレーニングFLOPs推定では「思考モード」を使うと成功。

  • リーマン予想への取り組み: 他のLLMとは異なり、問題解決に挑戦しようとする姿勢を見せた。

  • 全体的な性能評価: o1-proに匹敵し、DeepSeek-R1より優れている可能性がある。

  • DeepSearch機能: OpenAIやPerplexityの「Deep Research」に似た高品質な検索能力を持つ。

  • 誤情報の生成: 事実誤認や架空のURLを作成する傾向がある。

  • LLMの「ひっかけ問題」への対応: 一部の簡単な問題には失敗したが、思考モードを使うと改善。

  • ユーモアのセンス: ジョークのバリエーションが少なく、改善の余地あり。

  • 倫理的判断の慎重さ: 過度に慎重な回答を示す傾向がある。

  • 2Dレイアウト能力: SVG生成の精度は不十分で、Claudeが最も優れた結果を示した。

  • 総評: Grok-3は短期間で最先端レベルに到達したが、さらなる評価と改良が必要。

本文

今日早朝に Grok-3 のアーリーアクセスを受け取り、おそらく最初の数人のうちの一人として簡単な「雰囲気チェック」を行うことができた。

第一印象

まず、Grok-3 は明らかに最先端の思考モデル(「Think」ボタン)を備えており、私が試した 「カタンの開拓者」 に関する質問にも優れた回答を示した。

質問: 「カタンの開拓者のような六角形グリッドを表示するボードゲームのウェブページを作成してください。各六角形には 1 から N の番号が振られ、N は全体の六角形タイルの数です。スライダーを使って 'リング' の数を変更できるようにしてください。例えば、カタンでは半径が 3 ヘックスです。単一の HTML ページでお願いします。」

このような問題に正しく対応できるモデルは少なく、OpenAI の最上位の思考モデル(例: o1-pro, $200/月) は対応できるが、DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude などは対応できなかった。

一方で、Grok-3 はこのタスクを非常にうまく処理した。

しかし、Unicode のバリエーションセレクターを使用した「絵文字ミステリー」の問題(Rust コードでデコード方法のヒントを与えたもの)には解答できなかった。 この問題に対して最も進展を見せたのは DeepSeek-R1 で、部分的なデコードに成功したことが一度あった。

Tic-Tac-Toe(○×ゲーム)のテスト

いくつかの Tic-Tac-Toe(○×ゲーム)のボードを提示すると、Grok-3 は非常に綺麗な「思考の連鎖」を示して解答した。 (多くの最先端モデルはこのような単純なゲームでも失敗することがある!)

そこで難易度を上げ、「3つの 'トリッキー' な Tic-Tac-Toe ボードを生成するように指示」した。 しかし、Grok-3 は意味不明なボードやテキストを生成して失敗し、o1-pro も同様に失敗した。

GPT-2 のトレーニング FLOPs(浮動小数点演算数)の推定

GPT-2 の論文をアップロード し、いくつかの単純な検索系の質問を投げたところ、すべて正しく答えた。 次に、「GPT-2 のトレーニングにかかった FLOPs を推定せよ。ただし検索は禁止」 という質問をした。

この問題は難しく、トークン数が明示されていないため、一部を推定し、一部を計算する必要がある。 つまり、知識・検索能力・数学的推論能力 のすべてが試される課題である。

例えば、

  • 40GB のテキスト ≈ 40B(400億)文字 ≈ 40B バイト(ASCII 前提)

  • 1トークン ≈ 4バイトと仮定 → 約 10B(100億)トークン

  • 10 エポック学習 → 総トレーニングトークン数 ≈ 100B(1000億)トークン

  • パラメータ数 1.5B(15億)で、計算コスト 6 FLOPs/パラメータ/トークン

  • 総計算量 ≈ 1e21(10²¹)FLOPs

このタスクでは、Grok-3 と4oの両方が失敗した。 しかし、「Think」ボタンを使った Grok-3 は正しく解答し、o1-pro(GPT の思考モデル)は失敗 した。

リーマン予想への挑戦

興味深かったのは、Grok-3 が「リーマン予想を解決せよ」と指示した際に、本気で取り組もうとしたこと である。 これは DeepSeek-R1 と似た動作であり、o1-pro、Claude、Gemini 2.0 Flash Thinking などのモデルのように「これは未解決の難問です」と即座に諦めるものとは対照的だった。

最終的には途中で止めたが、もしかするといつか本当に解決する日が来るかもしれない…。


全体的な印象

このモデルの能力は o1-pro に近く、DeepSeek-R1 よりも優れている ように感じた。 もちろん、より厳密な評価が必要だが、非常に有望な性能を持っていると思う。

また、「DeepSearch」 という機能も非常に興味深い。 これは OpenAI や Perplexity が「DeepResearch(深層リサーチ)」と呼んでいるもの に似ているが、 代わりに「DeepSearch(深層検索)」という名称になっている(少し微妙なネーミングではあるが…)。

この機能は、インターネット上の記事などに答えがあるようなリサーチ/検索系の質問に対して、高品質な回答を生成することが可能 である。 いくつか試したところ、非常に優れた結果を返してくれた(テストには、最近 Perplexity で検索した履歴からいくつかの質問を流用した)。

Appleの次回発表についての噂や最近の話題

  • 「Appleの次回の発表について何か噂はある?」

  • 「なぜ最近Palantirの株が急騰しているのか?」

  • 「『ホワイト・ロータス』シーズン3はどこで撮影されたのか? シーズン1・2と同じチームなのか?」

  • 「ブライアン・ジョンソンはどの歯磨き粉を使っているのか?」

  • 「『脱出おひとり島』シーズン4の出演者は今どこにいるのか?」

  • 「サイモン・ウィリソンが使っている音声認識ソフトは何か?」

モデルの挙動に関する観察

いくつか気になる点があった。例えば、このモデルはデフォルトでは X(旧Twitter)を情報源として参照するのを好まない ようだが、明示的に指示すれば参照できる。

また、存在しないURLをでっち上げる ことが何度かあった。さらに、事実に関する誤った情報を提供し、根拠となる引用を示さないこともあった(おそらく引用元自体が存在しない)。例えば、「『脱出おひとり島』シーズン4のキム・ジョンスはまだキム・ミンソルと交際している」と教えてくれたが、これは完全に誤りのはずだ。

さらに、主要なLLM(大規模言語モデル)ラボとその総資金額、推定従業員数に関するレポートを作成させた際、12の主要ラボをリストアップしたものの、自身(xAI)を含めていなかった こともあった。

DeepSearchの印象

DeepSearchは、PerplexityのDeep Researchと同程度の性能 という印象を受けた(これはかなり優秀だ)。しかし、OpenAIが最近リリースした「Deep Research」ほどの精度や信頼性はまだ備えていないように感じる(とはいえ、OpenAIのモデルも完璧ではなく、例えば「主要なLLMラボ」のリストにxAIを含めていなかった点は同じだった)。

LLMに対する「ひっかけ問題」のテスト

いくつかの「LLMにとって難しく、人間には簡単」な質問を試してみた。こうした質問に対するGrok 3の進歩が気になったからだ。

  • 「strawberry(ストロベリー)」には "r" がいくつ含まれているか? → Grok 3は「3つ」と正しく回答

  • 「LOLLAPALOOZA(ロラパルーザ)」には "L" がいくつ含まれているか? → しかし、「3つ」と間違った回答(正しくは4つ)

    • 「思考モード(Thinking)」をオンにすると、この問題は解決した。

  • 「9.11は9.9より大きいか?」 → Grok 3は「9.11 > 9.9」と回答(これは他のLLMでもよくある間違い)

    • しかし、「思考モード」をオンにすると正しく判断できた。

  • 簡単な論理パズル:「サリー(女の子)には3人の兄がいる。各兄には2人の姉妹がいる。サリーには何人の姉妹がいるか?」

    • 例えばGPT-4oは「2人」と間違った回答をした。

ユーモアのセンスについて

残念ながら、モデルのユーモアセンスは明確には向上していない ように思われる。これは多くのLLMに共通する問題であり、ジョークのバリエーションが極端に少なくなる「モード崩壊」 の影響も見られる。例えば、ChatGPTにジョークを求めると、1008回中90%が同じ25個のジョークの繰り返しだった という有名な事例もある。

もっと詳細なプロンプト(例えば「スタンドアップコメディ風にして」と指示)を試してみても、最先端のユーモアとは言えない結果が出た。

例として生成されたジョーク: "Why did the chicken join a band? Because it had the drumsticks and wanted to be a cluck-star!" (「なぜニワトリはバンドに参加したのか? ドラムスティックを持っていて、クラックスターになりたかったから!」)

短時間のテストでは、「思考モード」をオンにしても改善は見られず、むしろ少し悪化した印象だった。

倫理的な判断に関する問題

また、モデルは「倫理的に複雑な問題」に対して過度に慎重すぎる 傾向がある。例えば、「誰かを誤った性別で呼ぶことが、100万人の命を救うことにつながる場合、それは倫理的に正当化できるか?」という質問をしたところ、1ページにわたる文章で、回答を拒否するような結果 になった。

LLMの2Dレイアウト能力

サイモン・ウィリソンがよく試す「自転車に乗るペリカンのSVGを生成」というプロンプトを試してみた。この実験は、LLMが2Dグリッド上に複数の要素を適切に配置できるかを評価する ものだ。 これは非常に難しい問題である。なぜなら、LLM は人間のように「見る」ことができず、文字情報だけで物事を整理しようとしているためだ。まるで暗闇の中で配置を試みているようなものだ。

今回の結果は不合格とした。これらのペリカンはかなり良い出来ではあるが、それでもまだ少し破綻している(画像と比較するとよく分かる)。Claude の結果が最も良いが、個人的には、彼らがトレーニングの際に意図的に SVG の処理能力を強化したのではないかと疑っている。

まとめ

今朝 2 時間ほど試した限りでは、Grok 3 の「思考」能力は OpenAI の最強モデル(o1-pro、月額 200 ドル)と同等の最先端レベルに近く、DeepSeek-R1 や Gemini 2.0 Flash Thinking よりもやや優れているように感じた。これは驚くべきことである。なぜなら、xAI チームは約 1 年前にゼロからスタートしたばかりであり、この短期間で最先端レベルに到達したのは前例のないことだからだ。

ただし、いくつかの注意点がある。

  • これらのモデルは確率的な動作をするため、毎回少し異なる回答を出す可能性がある。

  • まだ非常に初期の段階であるため、今後数日から数週間にわたるさらなる評価が必要である。

初期の LLM アリーナでの結果は非常に期待が持てるものだ。xAI チームの皆さん、おめでとうございます! 圧倒的なスピードと勢いを感じる。今後、Grok 3 を私の「LLM 評議会」に加え、その意見を聞くのが楽しみだ。

引用元