GPT-4oが地味にベンチマークTOPをマークし、そしてGrok-2が猛追する

2024年8月14日 12:21

ChatGPTが2022年11月に一般公開されてからというもの対話型AIの開発競争が加熱し、Google Gemini、Anthropic Claude、XのGrokなどがベンチマークで鎬を削ってきましたが、8月13日に公式が発表したモデルGPT-4oがベンチマークで一部の機能ではTOPの座を奪還したという報告があります。

there's a new GPT-4o model out in ChatGPT since last week. hope you all are enjoying it and check it out if you haven't! we think you'll like it 😃
— ChatGPT (@ChatGPTapp) August 12, 2024

また、GPT-4oが改良されたものでアプデではないという事を公式が細くしています。

to be clear, this is an improvement to GPT-4o and not a new frontier model. we continue to iterate on existing models while working on longer term research. some release notes:https://t.co/TgAJ7kGQdc
— ChatGPT (@ChatGPTapp) August 14, 2024

chatgpt-4o-latestベンチマーク

下記のベンチマーク解説ポストでは、OpenAI Developersのポストをリポストしています。公式ではAPIで使用できるモデル名はchatgpt-4o-latestであるとの事です。

Exciting Update from Chatbot Arena!

The latest @OpenAI ChatGPT-4o (20240808) API has been tested under "anonymous-chatbot" for the past week with over 11,000 community votes.

OpenAI has now successfully re-claimed the #1 position, surpassing Google's Gemini-1.5-Pro-Exp with an… https://t.co/9lJlASI9UW pic.twitter.com/gxCDuBOi9N
— lmsys.org (@lmsysorg) August 14, 2024

新しいGPT-4oモデルの重要な改良点

2024年8月13日のアップデートでは、以下のような改善が行われています：

構造化出力（Structured Outputs）:
- 開発者が指定するJSON Schemaに基づいて、AIの出力を正確に構造化することが可能になりました。これにより、出力の形式を整える作業が簡素化されます。これにより、開発者はAIの出力を特定のフォーマットに整えることが容易になります。（注01）
マルチステップ推論の改善:
- 複雑なクエリに対するステップバイステップの論理的な推論を提供する能力が向上しています。これにより、特に詳細な説明が求められる場面での回答の正確性が向上しました。（注02）
ステップバイステップの推論の改善:
- 複雑なクエリに対するステップバイステップの論理的な推論を提供する能力が向上しています。この変更により、特に詳細な説明が求められる場面での回答の正確性が向上しました。

これらの情報は、8月13日のアップデートに関する正確な変更点を示しています。具体的な内容は、以下のリンクからも確認できます：

※注01：以下のページに詳しく書かれています。

※注02：OpenAI は ChatGPT モデルの最近のアップデートで、多段階推論と詳細な説明に大幅な改善をもたらす GPT-4o バリアントをリリースしました。ChatGPT の公式アカウントはソーシャルプラットフォーム X でひっそりと発表しましたが、ユーザーはすぐにモデルのパフォーマンスの違いに気づきました。

※注03：ChatGPT の新しい GPT-4o モデルは、すでにシステム内で稼働しており、より包括的なステップバイステップの推論で応答します。これは多くのユーザーが役立つと感じている変更です。この改善により、特に論理的な流れと詳細な説明を必要とする複雑なクエリに対して、応答の精度が向上しました。また、多くのユーザーは、以前のモデルと比較して、より強力で品質の高い正確なビジュアルを実現する、より強力な固有の画像生成機能にも注目しています。

この件は筆者も昨日実感しましたので合わせて下記のNoteをご覧ください。

ベンチマークツールもついでにリリース

OpenAIは、AIモデルのソフトウェア問題解決能力を評価するための新しいベンチマーク「SWE-bench Verified」を発表しました。このベンチマークは、GitHubの問題から生成されたサンプルを使い、モデルがコードの修正を行う能力を評価します。元のSWE-benchの課題を人間がチェックし、正確な評価ができるよう改善しました。この新しい評価方法により、AIモデルの実力をより正確に把握できるようになりました。

OpenAIが発表した「SWE-bench Verified」は、AIがソフトウェアの問題を解決する能力を評価するための新しいベンチマークです。GitHubの問題を元にしたサンプルを使い、AIモデルがどれだけ正確にコードを修正できるかを評価します。これにより、AIの実力をより正確に測定することができます。

本日リリースxAIのGrok2がClaude3.5 sonnetを抜いた！？

本日、Grok-2 Betaもリリースされました。

さっそく、ベンチマーク続報ではイーロン・マスクの開発しているxAIのGrokがClaude3.5を抜いた事がポストされていました。

Hold on, Grok 2 is beating Claude 3.5 Sonnet?!

BTW, this leaderboard has Sonnet at 5th place—do you really see other models giving better output than Sonnet right now? https://t.co/VIgdgiqiAq
— Jeremy Nguyen ✍🏼 🚢 (@JeremyNguyenPhD) August 14, 2024

Grok 2 Is a SOTA model!

A tad below Sonnet and GPT-4o, Grok-2 is almost tied with Llama-405b!

Of course, it's better than Gemini Pro on some key benchmarks, including MMLU Pro and Human Eval (coding)

The best part is that they will soon release an Enterprise API, and it's… pic.twitter.com/OvzPBmX3mm
— Bindu Reddy (@bindureddy) August 14, 2024

ベンチマーク結果は刻一刻と変わっていきます。

Grok-2は画像生成もできる様でGrok-2の生成した画像を添付したポストが多数上がっています。しかもGrok-2はChatGPTとちがい規制が緩い様でディープフェイク画像を多数生成しています。

I asked Grok to generate the Founding Fathers, European, Viking, and Pope.

Google, this is how it's done: pic.twitter.com/jzF5Y3xod4
— End Wokeness (@EndWokeness) August 14, 2024

#grok の画像生成AI、みんなが「スタバなう」って言いながらラーメンの画像貼ってたから、「スタバなう」で生成するとラーメン出るようになっちゃってるじゃないの！！！！これだから日本人は！！！！ちょっと美味しそうだし！！！！！！https://t.co/xEcf4h12Yw pic.twitter.com/q1Cy9Ziwd5
— 柊こんそめ@AI漫画・AIイラスト (@potechi_takusan) August 14, 2024

Grok 2.0 .... Ohh boyyyy 😆😆😆 pic.twitter.com/TjzB7WMhVp
— Benjamin De Kraker 🏴‍☠️ (@BenjaminDEKR) August 14, 2024

ChatGTPでは絶対に生成できないこの様な、麻薬の画像も規制が掛からす生成されてしまう様です。

Uncensored FTW!

OAI is censored.

Grok and ChatLLM aren’t! pic.twitter.com/uU7RlDGvKu
— Bindu Reddy (@bindureddy) August 14, 2024