見出し画像

Grok 3のベンチマークは偽物だったかもってさ。

xAI、Grok 3のベンチマークで虚偽表示の疑い|TECH CANVAS

これがそれです: 世界で最も賢い AI、Grok 3 が無料でご利用可能になりました (サーバーがクラッシュするまで)。

Grok 3は「世界で最も賢いAI」と言っちゃってます。

ベンチマーク結果でこんなに良い結果が出ました! っていうスコアを証拠に「世界で最も賢いAI」とし公言しているのですが、ベンチマークのスコアはなんともむずかしい指標。

PCのベンチマークなんかを考えてみるとわかるように、スコアを出すためには何回も何回も、それこそ何十回もテストを行って出た一番良いスコアをそのPCのベンチマークスコアとして公表するのではないかと思っています。

もちろん、公平性を保つために平均スコアを採用したり、他社製品であれば一番悪いスコアを採用することも考えられますが、自社製品を評価するのなら通常は最も良いスコアを採用するはず。

そうやって「世界で最も賢いAI」となったわけですが、公平性をもって比較するユーザーが多く現れた場合には、そのタイミングや運によって良くも悪くもなり得ます。ベンチマークスコアは意味があるようで完璧な評価とするのはむずかしいのですね。

Grok 3を使ってみた個人的な感想は、なかなか良さそう、という感じ。今までと使い勝手が変わった部分も多少ありますが、慣れていきたいですね。


いいなと思ったら応援しよう!