見出し画像

OpenAIのGPT-4.5を10分で解説 - 急ごしらえ、平凡、そして高額!

3,856 文字

正直なところ、OpenAIが最近リリースした新モデルGPT-4.5について何を考えているのか分かりません。このモデルはかなり急いで作られた印象で、平凡な性能であり、テストする価値すらないように感じます。料金体系だけでも法外です。これをご覧ください。これには複数の理由がありますが、後ほど詳しく説明します。基本的に、この料金体系のせいでこのモデルにアクセスすることさえ考えられないのです。
とにかく、今日Sam AltmanとOpenAIはXに投稿し、GPT-4.5がProとPlusユーザー向けに利用可能になったと発表しました。長い間噂されていたOrionモデルが、GPT-4.5という名前で登場しました。これはOpenAIの最大かつ最も知識豊富なモデルであり、現在はリサーチプレビュー段階にあります。つまり、まだ最終版ではありませんが、OpenAIによれば、GPT-4.5はGPT-4 Ominiを超えるスケールを持ち、事前学習の拡大と幅広い汎用的能力を備えているとのことです。
初期のテストでは、このモデルの応答がより自然であることが示されており、これは改善された感情知能とアライメント(調整)によるものでしょう。GPT-4.5の応答をGPT-4 OminiやO3 miniと比較すると、より人間らしい自然な応答において詳細さが向上していることに気づくでしょう。これは明らかに感情知能の向上によるものですが、創造的知能、専門的な質問、日常的な質問においても、これらの主要カテゴリでの応答の全体的な質を向上させるデータセットに焦点を当てて改善されています。
また、幻覚(ハルシネーション)が少なくなっていると報告されており、教師なし学習と組み合わせた思考連鎖(Chain of Thought)スケーリングの恩恵を受けており、これが推論能力を向上させる可能性があります。
始める前に、World of AIニュースレターへの登録をお勧めします。毎週異なるニュースレターを投稿しており、AIの世界で何が起きているかについて最新の知識を簡単に得ることができます。完全に無料なので、ぜひ登録してください。
GPT-4 Ominiと比較すると、この新しいモデルは世界についてより深い理解を持ち、より高い事実的正確さと人間との良好なアライメントを持つとされています。しかし、他のベンチマークに関しては実際にはやや劣っており、これが冒頭で私がこのモデルは急ごしらえで平凡であり、テストする価値さえないと述べた理由です。
システムカードを見れば、SWED BenchやVerifiテストから科学や数学の評価まで、さまざまな種類の評価に関する詳細情報を得ることができます。基本的に、このモデルは当然ながら前任者を上回っていますが、OpenAIの新しいモデルに期待されるほどのパフォーマンスを大幅に向上させているわけではありません。これはトレーニングに問題があったためです。実際、GPT-4 Ominiの2倍のサイズであり、そのため非常に高価ですが、基本的に彼らはトレーニングのためのGPUが十分にないという言い訳をしました。来週にはより多くのGPUを追加する予定ですが、これがこのモデルのトレーニングと現在の能力を超えたスケーリングの進行を妨げた要因であり、その結果として能力が平凡で急ごしらえになっています。
さらに、法外な料金体系が追加されており、入力は100万トークンあたり75ドル、出力は100万トークンあたり150ドルと記載されています。以前のモデルと比較すると確かにはるかに安いですが、このモデルの能力を考えると少し法外です。
ですが、私の理論を聞いてください。OpenAIは、クリエイティブなタスクやエージェント計画など、高度な機能を必要とする大企業のような高額ユーザーを対象に料金を上げることを目指しており、一般ユーザーには手が届かないようにしていると思います。これはGPT-5モデルのトレーニングのために拡張しようとしているGPUの費用を支払うためかもしれませんし、彼らの技術を保護するためかもしれません。よく考えてみると、彼らはより大きなモデルのトレーニングのために短期的に価格を上げることで、競合他社がその出力をスクレイピングしてトレーニングやディスティレーションに使用するのを難しくしているのかもしれません。これにより、GPT-5モデルを現在のデータセットで準備する際に、彼らは優位性を維持できるのです。
次に、さまざまなベンチマーク評価テストを見てみましょう。まず最初にGenticテストを見てみると、GPT-4.5はこのベンチマークで40%のスコアを記録しており、これは推論モデルであるDeep Researchより38%低いですが、予想通りです。一方、プリミティゲーションは25%のスコアを記録していますが、これは明らかにGPC4 OmyやO1のような前任者よりも優れており、良い兆候です。
次に、MLEベンチマークテストがあります。これはコーディングやデバッグなどの機械学習エンジニアリングタスクで大規模言語モデルを評価するものです。ここでは、O1、O3 mini、Deep Research、そして新しいGPT-4.5モデルはすべて同じスコア11%を記録しています。ほとんどのモデルではAidが使用され、Deep Researchでは内部ツールが使用されています。これは、反復的なファイル編集やデバッグのための異なる評価方法を示していますが、残念ながら前モデルからの大きな改善は見られません。
コーディングやプログラミングのベンチマークでは、高い評価は記録されていません。SVE Bench Verifyテストは、モデルが実世界のコーディング関連問題をどれだけうまく解決できるかを評価するソフトウェアエンジニアリングテストです。この場合、GPT-4.5はGPT-4 Ominiと同等ではありませんが、パフォーマンスが7%向上しており、これはあまり印象的ではありません。新しいClaude 3.7モデルと比較すると、それは信じられないほどの72%を達成しており、これは素晴らしいことです。一方、GPT-4.5はそのサイズの半分であり、かなり物足りないです。
コーディングのためにこのモデルを使用する場合、ほとんどのケースでそれほど助けにならないため、あまり印象的ではなく、特にこの料金体系ではコーディングに使用しようとする価値さえありません。
ただし、GPT-4.5のビジョン機能はかなり印象的です。Twitterでは、このモデルがGenchタスクやマルチモダリティでどれだけうまく機能するかについて話題になっており、オブジェクト識別やカウントが大幅に改善されています。この場合、画像内の特定のものを見つけようとしており、最も識別可能なオブジェクトを提供する素晴らしい仕事をしています。さらに、全体的な画像と比較して非常に小さな蝶を識別することさえできており、このモデルが強力な空間とパターン認識において素晴らしい仕事をし、かなり一貫していることを示唆しています。主に、精度や視覚的理解を必要とするGenticタスクに使用できるモデルであると思います。
この動画が気に入り、チャンネルをサポートしたい場合は、下の「Super Thanks」オプションを通じて寄付することを検討するか、私たちのプライベートDiscordに参加することを検討してください。そこでは、毎月無料でさまざまなAIツールへの複数のサブスクリプションにアクセスできるほか、毎日のAIニュースや独占コンテンツなど、さらに多くのものにアクセスできます。
要約すると、このモデルはそれほど素晴らしくはありませんが、それほど悪くもありません。つまり、先ほど述べたように、エージェントタスクや創造性のためにその能力を使用するような特定のユースケースに使用することができ、本質的にそれがこのモデルから最大の価値を得る方法です。
拡張された事前チェイニングを特徴としており、それは素晴らしいです。感情知能が向上し、幻覚が減少しており、これは非常に重要です。理解と事実的正確さに優れており、それを使用したい場所です。しかし、コーディングに関しては、コードの生成やソフトウェアエンジニアリングタスクでは熟練していません。それは多くの改善が必要な部分であり、基本的に料金体系はほとんどのケースで使用可能とは思えないため、このようなモデルを使用しようとさえ試みないでしょう。それはまあまあですが、それほど素晴らしくもありません。
このモデルについてのあなたの考えをコメント欄で教えてください。今日の動画で使用したすべてのリンクを説明欄に残しておきます。毎日および毎週のAIニュースを常に把握できるように、ニュースレターに登録してください。Patreonでフォローし、Twitterでフォローしてください。そして最後に、AIの世界で何が起こっているかを常に把握できるように、YouTubeチャンネルを登録してください。
前の動画をチェックしてください。それらの動画の中にはあなたに役立つ可能性のあるさまざまなタイプのニュースがたくさんあります。それでは皆さん、視聴ありがとうございました。素晴らしい一日を過ごし、ポジティブなエネルギーを広めてください。また近いうちにお会いしましょう。

いいなと思ったら応援しよう!