主要言語生成モデル（LLM）性能ランキング

東京 AI 研究所

2024年11月25日 09:36

2024年11月現在、主要な言語生成モデル（LLM）の性能ランキングは以下のとおりです。

ただし、2025年1月にDeepSeekの台頭により状況が変化しました。

↑最新の状況は上記リンク先を御覧ください

No.7: Claude 3.5 Sonnet

Anthropic社が開発したClaude 3.5 Sonnetは、倫理的AIの推進を掲げ、独自の立ち位置を確立しています。特に、倫理的な配慮と安全性に重点を置いた設計が特徴です。

No.6: LlaMA 3.1 405B

Meta社のLlaMA 3.1 405Bは、SNSでの膨大なユーザーデータを強みに、オープンな開発スタンスをとっています。特に、オープンソースコミュニティでの活用が期待されています。

No.5: Mistral Large 2

フランスのスタートアップMistral AIが開発したMistral Large 2は、多くのベンチマークでトップクラスのモデルと同等以上の性能を示し、業界に衝撃を与えています。特に、コード生成・数学・推論の能力が大幅に向上しています。

No.4: Microsoft Copilot

MicrosoftのCopilotは、Office製品との完璧な統合やビジネス向け機能の充実、セキュリティとコンプライアンスへの強いこだわりが特徴です。特に、企業ユーザーにとって有用なツールとなっています。

No.3: ChatGPT-4o-latest

OpenAIのChatGPT-4o-latestは、最新の大規模言語モデルであり、GPT-4の後継として登場しました。マルチモーダル機能が強化され、テキスト、音声、画像、ビデオを統合的に処理することができます。

No.2: Gemini-Exp-1114

Googleが開発したGemini-Exp-1114は、Chatbot ArenaのLLMランキングでChatGPT-4o-latestやo1-previewを抜いて総合1位となったほか、数学分野でもo1-previewに匹敵する性能を示しています。

No.1: o1-preview

OpenAIのo1-previewは、Chatbot ArenaのLLMランキングで多くの分野でトップクラスの性能を示しており、特に数学分野で高い評価を得ています。

なお、画像生成のランキングはこちら。

言語生成モデル（LLM）のランキングを評価する際には、さまざまな基準が考慮されます。それぞれの基準を以下に解説します。

1. 性能（性能ベンチマーク）

モデルの基本的な生成能力を測定する指標です。具体的には、以下のような要素が含まれます。

自然言語生成の精度: 文法的に正しく、意味の通る文章を生成できるか。
タスク解決能力: 質問応答、翻訳、要約、推論などのタスクにおける正確性。
知識の広さと正確さ: モデルが持つ知識が最新かつ広範であり、信頼できる情報を提供できるか。

評価方法：

ベンチマークデータセット（例: SuperGLUE, MMLU, Codex benchmark）を使用して定量的な性能を測定。

2. 多様性と適応力

異なる分野や目的に応じて適切な出力を生成する能力。

ドメイン対応力: 法律、医療、技術など、専門分野に特化したタスクに対応できるか。
多言語対応力: 日本語、中国語、フランス語など、多言語間での正確な翻訳や自然な文章生成が可能か。
生成の柔軟性: ユーザーの意図に応じた多様なスタイルやトーンで文章を生成できるか。

3. 創造性

LLMが新しいアイデアやコンセプトを生成する能力。

ストーリー生成: 小説や詩、広告コピーの作成能力。
問題解決の独自性: 新しい視点や斬新な解決策を提示できるか。
プロンプト適応性: ユーザーからの曖昧な指示にも創造的に対応できるか。

評価方法：

主観的なユーザー評価や、創造性に特化したデータセットを活用。

4. 実用性

モデルの実際の利用シーンでの効率や有用性。

応答速度: リアルタイムでの応答性能。
APIやツールとの統合: 他のアプリケーションやプラットフォームへの組み込みのしやすさ。
オンデバイス処理: デバイス上で動作し、インターネット接続なしでも利用可能か。

5. 安全性と倫理性

モデルが不適切な出力を避け、ユーザーに安全で有害でない情報を提供する能力。

バイアスの軽減: 性別、人種、文化に関する偏見が少ないか。
有害出力の防止: 誹謗中傷や違法情報の生成を防げるか。
倫理的利用指針: 透明性のある開発姿勢や、ユーザーのプライバシー保護。

評価方法：

シナリオテストや第三者評価による安全性の確認。

6. コストパフォーマンス

モデルを利用する際のコストに対する価値。

計算資源の効率性: モデルの実行に必要な計算リソースや消費エネルギー。
導入コスト: ビジネス向けの料金プランやオープンソースの利用可否。
スケーラビリティ: 需要に応じた拡張性のある利用が可能か。

7. ユーザー体験

実際のユーザーが感じる使いやすさや利便性。

インターフェースの使いやすさ: APIやプラットフォームの設計が直感的かどうか。
カスタマイズ性: ユーザーのニーズに応じてモデルをチューニング可能か。
コミュニティサポート: 開発者やユーザーコミュニティからのサポートの充実度。

評価の全体像

各基準はモデルの特徴を総合的に評価するためのものです。特に、専門的なタスクでは「性能」や「多様性」、一般ユーザー向けのアプリでは「安全性」や「実用性」が重視される傾向があります。

主要言語生成モデル（LLM） 性能ランキング

ただし、2025年1月にDeepSeekの台頭により状況が変化しました。

↑最新の状況は上記リンク先を御覧ください

No.7: Claude 3.5 Sonnet

No.6: LlaMA 3.1 405B

No.5: Mistral Large 2

No.4: Microsoft Copilot

No.3: ChatGPT-4o-latest

No.2: Gemini-Exp-1114

No.1: o1-preview

1. 性能（性能ベンチマーク）

2. 多様性と適応力

3. 創造性

4. 実用性

5. 安全性と倫理性

6. コストパフォーマンス

7. ユーザー体験

評価の全体像

いいなと思ったら応援しよう！

主要言語生成モデル（LLM）性能ランキング