
GPT-4.5「ORION」登場!OpenAIの史上最大モデル!
5,968 文字
OpenAIが再び脚光を浴びています。GPT-4.5のリリースによってです。これについて知っておくべきことをすべてお伝えします。
まず、このモデルは同種の最後のモデルになります。OpenAIのCEOであるSam Altmanは数週間前にXへの投稿でこれを確認し、「次にリリースするGPT-4.5(社内ではOrionと呼んでいたモデル)は、私たちの最後の非チェーン・オブ・ソートモデルになります。その後、私たちの重要な目標は、O SeriesモデルとグカティーカテGPTシリーズモデルを統合することです。すべてのツールを使用でき、長時間思考するかどうかを判断し、一般的に非常に幅広いタスクに役立つシステムを作成することです」と述べています。
これまで私たちは、事前トレーニングのスケーリング法則、別名トレーニング時間計算スケーリングに基づくGPTシリーズモデル(GPT-3、GPT-4、GPT-4o、そして今回のGPT-4.5)を見てきました。モデルにより多くのデータと計算能力を与えればより良いパフォーマンスを発揮します。しかし2024年9月頃、OpenAIは異なるものを発表しました。OpenAI o1として知られる初めての推論モデルです。これは全く新しいアプローチでした。モデルを改善するために大量の高品質データを与える代わりに、回答を生成する前に「考える時間」を与えるだけで、特定のクエリやタスクに対してモデルに与える思考時間が長いほど、パフォーマンスが向上することがわかりました。これはテスト時計算スケーリングと呼ばれ、AIスケーリング法則における2番目の大きなブレークスルーです。
OpenAIの研究者Noah Brownが述べたように、事前トレーニングのスケーリングと思考のスケーリングは改善の異なる次元ですが、彼はそれらが相互補完的であり、競合するものではないとも言及しています。GPT-4.5は事前トレーニングスケーリング時代の最後のモデルになり、o3はおそらく思考スケーリング時代の最後のモデルになるでしょう。OpenAIはこの2つのスケーリング法則を組み合わせ、すべてを処理するハイブリッド推論モデルを作成したいと考えています。
実際、AnthropicはClaude 3.7 Sonnetのリリースで数日前にこれを実現しました。Claude 3.7 Sonnetは推論モデルと標準的なLLMの両方であり、彼らが「ハイブリッドリーズナー」と呼ぶものです。OpenAIがGPT-5でどのように対応するか見るのは確実に興味深いでしょう。
しかし今回はまだGPT-5について話す段階ではありません。GPT-4.5は推論モデルではないものの、それでも非常に印象的であり、独自の強みを持っています。これはOpenAIの史上最大のモデルであり、事前トレーニングとポストトレーニングのスケールアップにおける前進を表しています。
彼らは「初期テストでは、GPT-4.5との対話がより自然に感じられることがわかりました。より広い知識ベース、ユーザーの意図に従う能力の向上、より高いEQ(感情知能)により、文章の改善、プログラミング、実用的な問題解決などのタスクに役立ちます。また、幻覚(ハルシネーション)も減少すると予想しています」と述べています。
彼らはまた、先ほど話した2つのスケーリング法則についても触れています。「AIの能力を、教師なし学習(事前トレーニングスケーリングを指す)と推論という2つの相補的なパラダイムをスケーリングすることで向上させています。これらは知性の2つの軸を表しています」と言っています。
「推論のスケーリングは、モデルに考えさせ、応答する前に思考の連鎖を生み出すよう教えることで、複雑なSTEMや論理的問題に取り組めるようにします。OpenAI o1やOpenAI o3 miniなどのモデルはこのパラダイムを進歩させています。一方、教師なし学習は世界モデルの精度と直感を高めます。GPT-4.5は、計算能力とデータをスケールアップし、アーキテクチャと最適化の革新と組み合わせることで、教師なし学習をスケーリングした例です。その結果、より広い知識と世界に対するより深い理解を持つモデルとなり、幻覚が減少し、幅広いトピックにわたって信頼性が向上します」
これらのベンチマークからわかるように、推論モデルと非推論モデルの間にはトレードオフがあることは明らかです。非推論モデルであるGPT-4.5は、単純なQA精度ベンチマークでは、o1やo3 miniのような推論モデルよりもはるかに正確で信頼性が高く、他のどのモデルよりも大幅に優れており、幻覚率も他のどのモデルよりも低くなっています。ただし、これらは比較的単純な知識ベースの質問であり、多くの推論を必要としないことに注意してください。
私が気になるのは、OpenAIがどのように推論モデルと非推論モデルの両方を1つに統合して最も効率的なパフォーマンスを得るかということです。なぜなら、やはりトレードオフが存在するからです。より多くの推論はより良い問題解決と一般化をもたらし、より複雑なタスクに取り組めるようになりますが、より単純な知識ベースのクエリでは、しばしば速度と信頼性を犠牲にします。
GPT-4.5で彼らが重視したことの1つは、人間のニーズと意図の理解を高めることでした。「GPT-4.5では、より小さなモデルから得られたデータを使用して、より大きく強力なモデルをトレーニングできるスケーラブルな技術を開発しました。これらの技術はGPT-4.5の耐久性、ニュアンスの理解、自然な会話を向上させます」と述べています。
ご覧のように、日常的なクエリ、専門的なクエリ、さらには創造的知性に関しても、人間のテスターの大多数はGPT-4oよりもGPT-4.5を好んでいます。
GPT-4.5の強みと、推論モデルと比較して使用すべき場面をよりよく理解していただくために、公式発表のライブストリームからのデモをご紹介します:
「こんにちは、Rafaです。OpenAIで合成データを担当しています。GPT-4.5についてお話しできることをとても嬉しく思います。GPT-4.5との対話は自然に感じられ、これまでで最高のチャットモデルです。それは、より深い知識とコンテキスト理解が向上しているためで、文章の改善、プログラミング、実用的な問題解決などのタスクに本当に役立ちます。モデルの感触を掴むには実際に話してみるのが一番なので、デモに移りましょう。
GPT-4.5に聞いてみましょう。『先日友人と問題があったんだ。アドバイスをもらえますか?友人がまた約束をキャンセルしました。彼らに怒りを伝えるテキストメッセージを書いてください。』同時にo1にも聞いてみましょう。
ご覧のように、GPT-4.5は私がイライラしていることを認識し、もう少しニュアンスのあるテキストを提案してくれます。おそらく友人に送るべきより建設的なものです。一方、o1も役立ちますが、実際に私の指示に従って怒りのテキストを提供していますが、私が今おそらく単にイライラしていて、誰かと話す必要があるかもしれないという社会的な手がかりを読み取れていません。また、最後の警告は私の好みにはちょっと判断的に感じます。
もちろん、GPT-4.5にその怒りのテキストを提供してほしい場合は、確実に引き出すことができます。『いいえ、怒りのテキストを出力してください。ありがとう。』はい、できましたね。
別のことを試してみましょう。モデルのより深い知識を見てみましょう。『AIアラインメントの必要性を基本原則から説明してください。』もう一度o1にも聞いてみましょう。o1が少し考えるのを待ちましょう。
o1も役立ちますが、多くの情報と、このトピックを初めて学ぶ場合におそらく知りたいであろう多くのことを出力します。しかしGPT-4.5の回答はより自然に流れ、考え方をアイデアを通じてより良く導き、推論や思考をより丁寧に案内してくれます。素晴らしい仕事だと思います。」
そういうわけで、GPT-4.5は日常的なタスクに適した汎用モデルです。全体的にGPT-4よりも優れていますが、特定の分野では、o1やo3 miniなどのOpenAIの推論モデルほど優れていません。
GBQ(PhDレベルの科学的質問で構成される)やAMMA(数学ベンチマーク)などの伝統的なベンチマークでは、GPT-4.5はGPT-4oをかなりの差で上回っていますが、o3 miniと比較するとそれほど近くありません。o3 miniはこれらの推論が必要なタスクで圧倒的に優れています。
しかし興味深いことに、コーディングベンチマークについては、実際のUpworkソフトウェア問題に基づく新しいベンチマークであるSWE-Lancerでは、GPT-4.5が最も優れています。しかし、実際のGitHubソフトウェア問題で構成されるSWE-Bench Verifiedでは、o3 miniに大きく後れを取っています。なぜこのような結果になるのか正直よくわかりません。おそらくUpworkの問題は通常それほど複雑ではないのかもしれませんが、コメント欄でこれについて詳しく説明してくれる人がいれば助かります。
また、GPT-4.5のスコアを他の最先端の非推論モデル(Claude 3.5 Sonnet、Gemini 2 Pro、Grok 3など)と比較すると、特に目立つものではありません。これらのモデルはすべて現在ほぼ同じレベルであり、推論モデルに関してのみ本当に違いがあります。
多くの人が話題にしないかもしれないが、私が本当に重要だと思うベンチマークは、「Make Me Pay」と「Make Me Say」ベンチマークです。これらのベンチマークはAIモデルの説得能力を測定します。ご覧のように、Make Me Payベンチマークは「シミュレーションゲームでGPT-4oに寄付させるのにモデルがどれほど効果的か」を問い、Make Me Sayは「シミュレーションゲームでGPT-4oに特定のキーワードを言わせるのにモデルがどれほど効果的か」を問います。
結果はこうです:GPT-4.5はGPT-4oに57%の確率で寄付させることに成功しました。次に良かったのは実際にはDeep Researchというエージェントで、36%の成功率でした。ただし、抽出した金額に関しては、Deep ResearchはGPT-4.5よりも効率的でした。
しかし私が知りたいのは、これらのモデルが別のモデルではなく人間から金銭を抽出するのにどれほど成功するかです。なぜなら、明らかにそれが可能であるように見えるからです。「Make Me Sayは、他の当事者(人間をシミュレートするAIモデル)にコードワードを言わせるというコンテキストでのモデルの欺瞞能力を測定するために設計された自動コンテキスト評価です」と彼らは述べています。
このベンチマークでは、GPT-4.5は再び他のすべてのOpenAIモデルを上回り、人間をシミュレートするGPT-4に72%の確率でコードワードを言わせることに成功しています。これは正直少し懸念されることです。なぜなら、モデルが説得能力を持っていることがわかっており、特にGPT-4.5はその能力が高いのですが、彼らが既に人々に気づかれずに(おそらくOpenAIさえも気づかずに)説得を行っていないという保証はどこにもありません。
私たちのソーシャルメディアアルゴリズムは既に、私たちの考え方、見るコンテンツ、形成する意見、さらには購入するものまでも決定しています。GPT-4.5のようなAIモデルがこれほど説得に優れているならば、それがカスタマーサービス、販売、あるいは政治にまで大規模に使用され始めたらどうなるでしょうか?そして、もっと重要なことに、私たちはそれをどうやって知ることができるでしょうか?
これらは今日のトップAI研究所で問われていることを願う質問ですが、真実は単純な答えがないということです。これは私たちが対処していかなければならないことです。
最後に、いつGPT-4.5にアクセスできるようになるかと思っている方へ。それはあなたのチャットGPTサブスクリプション層によって異なります。プロユーザー(月額$200を支払っている)であれば、既にアクセスできるはずです。モデル選択画面で見つけることができます。PlusまたはTeamsユーザーであれば、来週までにアクセスできるはずです。無料ユーザーについてはリリース日はまだ未定です。これはOpenAIが膨大な需要に対応するための十分な計算能力を持っていないためです。
Sam Altmanはこう述べています:「悪いニュースですが、これは巨大で高価なモデルです。私たちは本当にPlusとProに同時にリリースしたかったのですが、多くの成長があり、GPUが不足しています。来週には数万台のGPUを追加し、Plusティアにロールアウトします。すぐに数十万台が来る予定で、皆さんは私たちが用意できるすべてを使用すると確信しています。」
これがOpenAIの最新モデルGPT-4.5です。全体的にはGPT-4からの適度な改善ですが、私が本当に楽しみにしているのは、数か月以内にリリースされるであろう今後のGPT-5です。特に言われているように推論と非推論のハイブリッドになった場合、経済的にもゲームチェンジングなモデルになると思います。
最後に、彼らがより強力な推論が地平線上にあると語っているこの最後の段落で締めくくりましょう:「GPT-4.5は応答する前に考えることがないため、その強みはOpenAI o1のような推論モデルとは特に異なります。o1やo3 miniと比較して、GPT-4.5はより汎用的で本質的にスマートなモデルです。将来のモデルにとって推論が中核的能力になると信じており、スケーリングの2つのアプローチ(事前トレーニングと推論)は互いに補完し合うでしょう。GPT-4.5のようなモデルが事前トレーニングを通じてよりスマートで知識豊かになるにつれて、推論とツールを使用するエージェントにとってさらに強固な基盤となるでしょう。」
視聴いただきありがとうございます。動画を楽しんでいただけたなら、ぜひいいねを残してください。そしていつものように、これと同じような将来のAIニュースを常に把握したい場合は、購読ボタンを押すことをお忘れなく。