
Grok 3のベンチマークは偽物だったかもってさ。
xAI、Grok 3のベンチマークで虚偽表示の疑い|TECH CANVAS
This is it: The world’s smartest AI, Grok 3, now available for free (until our servers melt).
— xAI (@xai) February 20, 2025
Try Grok 3 now: https://t.co/Tj0afLoxEz
X Premium+ and SuperGrok users will have increased access to Grok 3, in addition to early access to advanced features like Voice Mode pic.twitter.com/YgKavSCiWr
これがそれです: 世界で最も賢い AI、Grok 3 が無料でご利用可能になりました (サーバーがクラッシュするまで)。
Grok 3は「世界で最も賢いAI」と言っちゃってます。
ベンチマーク結果でこんなに良い結果が出ました! っていうスコアを証拠に「世界で最も賢いAI」とし公言しているのですが、ベンチマークのスコアはなんともむずかしい指標。
PCのベンチマークなんかを考えてみるとわかるように、スコアを出すためには何回も何回も、それこそ何十回もテストを行って出た一番良いスコアをそのPCのベンチマークスコアとして公表するのではないかと思っています。
もちろん、公平性を保つために平均スコアを採用したり、他社製品であれば一番悪いスコアを採用することも考えられますが、自社製品を評価するのなら通常は最も良いスコアを採用するはず。
I think its safe to say that xAI and OpenAI both have committed minor chart crimes with thinking models. Frankly, there are no industry norms to lean on. Just expect noise. Is fine.
— Nathan Lambert (@natolambert) February 20, 2025
May the best model win. Do your own evals anyways, AIME is practically useless to 99% of people. pic.twitter.com/ZnibSqZUag
そうやって「世界で最も賢いAI」となったわけですが、公平性をもって比較するユーザーが多く現れた場合には、そのタイミングや運によって良くも悪くもなり得ます。ベンチマークスコアは意味があるようで完璧な評価とするのはむずかしいのですね。
Grok 3を使ってみた個人的な感想は、なかなか良さそう、という感じ。今までと使い勝手が変わった部分も多少ありますが、慣れていきたいですね。