見出し画像

GPT-4oが地味にベンチマークTOPをマークし、そしてGrok-2が猛追する

ChatGPTが2022年11月に一般公開されてからというもの対話型AIの開発競争が加熱し、Google Gemini、Anthropic Claude、XのGrokなどがベンチマークで鎬を削ってきましたが、8月13日に公式が発表したモデルGPT-4oがベンチマークで一部の機能ではTOPの座を奪還したという報告があります。

また、GPT-4oが改良されたものでアプデではないという事を公式が細くしています。

chatgpt-4o-latestベンチマーク

下記のベンチマーク解説ポストでは、OpenAI Developersのポストをリポストしています。公式ではAPIで使用できるモデル名はchatgpt-4o-latestであるとの事です。

新しいGPT-4oモデルの重要な改良点

2024年8月13日のアップデートでは、以下のような改善が行われています:

  1. 構造化出力(Structured Outputs):

    • 開発者が指定するJSON Schemaに基づいて、AIの出力を正確に構造化することが可能になりました。これにより、出力の形式を整える作業が簡素化されます。これにより、開発者はAIの出力を特定のフォーマットに整えることが容易になります​。(注01)

  2. マルチステップ推論の改善:

    • 複雑なクエリに対するステップバイステップの論理的な推論を提供する能力が向上しています。これにより、特に詳細な説明が求められる場面での回答の正確性が向上しました​。(注02)

  3. ステップバイステップの推論の改善:

    • 複雑なクエリに対するステップバイステップの論理的な推論を提供する能力が向上しています。この変更により、特に詳細な説明が求められる場面での回答の正確性が向上しました。

これらの情報は、8月13日のアップデートに関する正確な変更点を示しています。具体的な内容は、以下のリンクからも確認できます:

※注01:以下のページに詳しく書かれています。

※注02:OpenAI は ChatGPT モデルの最近のアップデートで、多段階推論と詳細な説明に大幅な改善をもたらす GPT-4o バリアントをリリースしました。ChatGPT の公式アカウントはソーシャル プラットフォーム X でひっそりと発表しましたが、ユーザーはすぐにモデルのパフォーマンスの違いに気づきました。

※注03:ChatGPT の新しい GPT-4o モデルは、すでにシステム内で稼働しており、より包括的なステップバイステップの推論で応答します。これは多くのユーザーが役立つと感じている変更です。この改善により、特に論理的な流れと詳細な説明を必要とする複雑なクエリに対して、応答の精度が向上しました。また、多くのユーザーは、以前のモデルと比較して、より強力で品質の高い正確なビジュアルを実現する、より強力な固有の画像生成機能にも注目しています。

この件は筆者も昨日実感しましたので合わせて下記のNoteをご覧ください。

ベンチマークツールもついでにリリース

OpenAIは、AIモデルのソフトウェア問題解決能力を評価するための新しいベンチマーク「SWE-bench Verified」を発表しました。このベンチマークは、GitHubの問題から生成されたサンプルを使い、モデルがコードの修正を行う能力を評価します。元のSWE-benchの課題を人間がチェックし、正確な評価ができるよう改善しました。この新しい評価方法により、AIモデルの実力をより正確に把握できるようになりました。

OpenAIが発表した「SWE-bench Verified」は、AIがソフトウェアの問題を解決する能力を評価するための新しいベンチマークです。GitHubの問題を元にしたサンプルを使い、AIモデルがどれだけ正確にコードを修正できるかを評価します。これにより、AIの実力をより正確に測定することができます。

本日リリースxAIのGrok2がClaude3.5 sonnetを抜いた!?

本日、Grok-2 Betaもリリースされました。 

さっそく、ベンチマーク続報ではイーロン・マスクの開発しているxAIのGrokがClaude3.5を抜いた事がポストされていました。

ベンチマーク結果は刻一刻と変わっていきます。

Grok-2は画像生成もできる様でGrok-2の生成した画像を添付したポストが多数上がっています。しかもGrok-2はChatGPTとちがい規制が緩い様でディープフェイク画像を多数生成しています。

ChatGTPでは絶対に生成できないこの様な、麻薬の画像も規制が掛からす生成されてしまう様です。


いいなと思ったら応援しよう!