タダで何でもできるようになったChatGPT:機能のおさらい
先日ChatGPTの無料ユーザーに、ハイスピードでタイピングする高性能GPT-4oが実装されました。そして本日より、これまで有料ユーザーしか利用できなかったほとんどの機能が無料ユーザーに解放された事を、OpenAIの公式Xアカウントがポストしています。
無料で使えるGPT-4o(Omni)とはどんなモデル?
GPT-4oは、GPT-4 レベルのインテリジェンスを提供しながら、はるかに高速で、テキスト、音声、視覚の面で機能が向上した、当社の最新の主力モデルです。
現在、GPT-4o は、共有する画像を理解して議論する点で、既存のどのモデルよりもはるかに優れています。たとえば、別の言語のメニューの写真を撮って GPT-4o に話しかけると、それを翻訳したり、食べ物の歴史や重要性について学んだり、おすすめをもらったりすることができます。将来的には、より自然なリアルタイムの音声会話や、リアルタイム ビデオを介して ChatGPT と会話する機能が改善される予定です。たとえば、ChatGPT にライブ スポーツ ゲームを見せて、ルールを説明してもらうことができます。
無料で使えるGPT-4o(Omni)の機能一覧
次に検証していくスペック的にはGPT-4に若干劣りますがとにかくタイピングスピードが早く効率的です。これまで有料ユーザーしか利用できなかった、以下の機能が解放されています。
GPT-4レベルの知能 を体験
回答を得る(新しいウィンドウで開きます)モデルとウェブの両方から
データを分析する(新しいウィンドウで開きます)チャートを作成する
撮った写真についてチャットする
ファイルをアップロードする(新しいウィンドウで開きます)要約、執筆、分析の支援
メモリでより役立つ体験を構築
GPTとGPTストアとは?
これはChatGPTのプラットフォーム上で小さなタスク特化型のGPTを作って他のユーザーが使える様にするという画期的なものがGPTストアです。このGPTストア内の全てのGPTが無料ユーザーに解放されました。データ解析、グラフ制作、ブラグ執筆、タロット占いなどありとあらゆる特化型LLMであるGPTsがありますので検索してみてください。下記に詳しいNoteを掲載しますので合わせてご覧ください。
オリジナルGPTを制作してGPTストアにアップする機能は今の所有料ユーザーのみの特権ですが、全てのGPTsの利用が無料ユーザーに解放されています。
無料版GPT-4oと有料版GPT-4 tarboの性能の違いは?
本日主要LLMsのベンチマークを公開したサイトがありましたのでそれをみながら解説していきましょう。
コーディング能力
Scale AI コーディング プロンプト セットは、さまざまなプログラミング言語、分野、プログラミング タスクにわたる 1,000 のプロンプトで構成されています。このデータセットには、デバッグからコードの最適化、ドキュメント生成から複雑なコード ベースの理解まで、幅広いソフトウェア エンジニアリング タスクが含まれています。
コーディング アプリケーションにおける LLM の使用法の一般的な使用と理解は高まっていますが、さまざまなモデルを同等の基準で比較できるツールやベンチマークは限られています。最もよく知られているものは次のとおりです。
HumanEval データセット:言語理解、アルゴリズム、簡単な数学を評価する 164 個の手書きプログラミング問題のセット。
Pass@k メトリック:問題に対して生成された上位 k 個のコード サンプルのうち少なくとも 1 つがユニット テストに合格する確率として定義され、生成されたコード サンプルの機能の正確性を評価します。
MBPP:主に基本的なプログラミング問題 (MBPP) データセットには、初級レベルのプログラマーでも解決できるように設計された 974 のプログラミング タスクが含まれており、自然言語記述から短い Python プログラムを合成する LLM の能力を測定するように設計されています。
SWE-Bench (ソフトウェア エンジニアリング ベンチマーク): LLM が Github の問題やプル リクエストから得られる現実世界の問題を解決できるかどうかをテストするベンチマーク。
LiveCodeBench:データ汚染の影響を軽減しながら高度な推論スキルをベンチマークするように設計された、最近の競争力のあるコーディング コンテストからのプログラミング パズルのコレクションです。
GPT-4 Turbo Preview=Score1155、95% Confidenceは+21/-24
GPT-4o(無料版)=Score1144、95% Confidenceは+31/-32
でわずかながら、有料版GPT-4が優っていますが、
3位のGemini 1.5 Pro (Post-I/O)よりはかなりハイスペックです。
数学能力
数学と推論は、現在でも LLM にとって最も重要な未解決問題の一部です。しかし、GSM8k などの既存の公開ベンチマークは、データ汚染の問題があると考えられています。モデルの機能のあらゆる側面を包括的に評価する一環として、私たちはGSM1kと呼ばれる新しい数学と推論のデータセットを設計しました。GSM1k は、人気の GSM8k ベンチマークに基づいており、その問題分布を反映することを目指しながら、まったく新しい一連の問題を導入しています。これには、およそ 5 年生の数学の試験レベルのさまざまな数学の問題が含まれています。このサイトでは、GSM1k を作成するために使用された方法論と、結果の短いプレビューを紹介しています。
一位は、OpenAIから別れた兄妹が設立したアンソロピック社のClaude3でした。
Claude 3 Opus=Score95.19、95% Confidence+1.22/-1.21
続いて2位がGPT-4 Turbo Preview、3位がGPT-4oです。
GPT-4 Turbo Preview=Score95.10、95% Confidenceは+1.22/-1.21
GPT-4o(無料版)=Score94.85、95% Confidenceは+1.25/-1.24
指示従順性能力
指示に従うタスクでLLM(Large Language Models)を評価する一般的な方法には、IFEvalベンチマークがあります。これは、プログラム的に検証可能な指示を含むプロンプトを使用してLLMを評価することに焦点を当てています。ただし、このベンチマークのシナリオは自動的に評価可能である必要があるため、限定されています。さらに、他のオープンソースのベンチマークと同様に、IFEvalは過学習の傾向があります。
これらの制限に対処するために、このサイトでは「Scale AI 正確な指示に従うプロンプトデータセット」を構築したそうです。これはプライベートな指示に従うプロンプトのセットで、人間の評価と組み合わせることを意図しています。このデータセットには、1,054の指示に従うプロンプトが9つのカテゴリーに分類されており、「まるでそうであるかのように振る舞う」、コンテンツの作成とブレインストーミング、そして指示に従うタスクのための実際のアプリケーションや使用例をカバーしています。これは、40人以上の多様な人間のアノテーターによって生成され、最終的なプロンプトがモデルの指示を理解し、具体性を持って実行する能力を試すための5段階のプロセスを経て開発されました。最終的な目的は、このプロンプトセットに対するモデルの反応に人間の評価を行うことです。
スペイン語能力
Scale AI 多言語プロンプト データセットは、言語ごとに 1,000 のプロンプトで構成されており、複数の言語にわたるモデルのインタラクション機能を強化するように調整されています。このデータセットは、グローバル コミュニケーションの複雑さを反映して、スペイン、メキシコ、その他のラテン アメリカのスペイン語ユーザーとやり取りする際のチャットボットの熟練度を向上させることを特に目的としています。
1位のGPT-4o、2位のGemini 1.5 Proは特にヒスパニック系の話すスペイン語に力を入れていることがわかります。
GPT-4o(無料版)=Score1139、95% Confidenceは+36/-28
Gemini 1.5 Pro (Post-I/O)=Score1129、95% Confidenceは+25/-25
GPT-4 Turbo Preview=Score1088、95% Confidenceは++28/-32
2024 年 5 月 30 日以降、Gemini 1.5 ProはAPIで使用できる有料モデルです。 チャットボット、仮想アシスタント、自動化システム、およびその他の AI 駆動アプリケーションなどで利用できます。コンテキスト ウィンドウは 100 万トークンから 200 万トークンに拡張されました。 これにより、開発者はモデルにさらに多くのデータを入力でき、より有益で正確な応答を得ることができます。
今後数週間以内に、これらの新機能を備えた新しい音声モードをアルファ版でリリースし、より広範囲に展開するにつれて、Plus ユーザー向けに早期アクセスを提供される予定です。その時は、このサイトのベンチマークも更新される事でしょう。