見出し画像

GPT-5はTTCS(テストタイム・チェーン・スケーリング)搭載システムに!

5,685 文字

GPT-5について初めて具体的な情報が得られました。その情報はSam Altmanから直接もたらされたものです。このビデオでは、OpenAIのロードマップ更新の一環としてSam AltmanがGPT-4.5とGPT-5について語った内容をすべて解説していきます。
Sam Altmanは数時間前にツイートを投稿し、これがOpenAIのロードマップ更新だと述べています。もし特定の概念に馴染みがない方のために、まずはツイートを読んでから詳しく解説していきましょう。
OpenAIロードマップ更新(GPT-4.5およびGPT-5について):より良い仕事をしたいと考えています。これは通常のSamらしい発言ですが、そこには触れないでおきましょう。ここで最も重要なのは、「私たちも皆さんと同様にモデルピッカーを嫌っています」という部分です。私個人としては嫌いではないのですが、まあそれは置いておきましょう。私はそのチームの一員ではありませんからね。彼らは統一された知性の魔法に戻りたいと考えています。次にリリースするGPT-4.5は、社内で「Orion」と呼んでいるモデルで、これが最後の非チェーン・オブ・ソートモデルになります。
ここで解説すべき点がいくつかあります。まず、Sam Altmanは他の皆と同様にモデルピッカーを嫌っていると述べています。モデルピッカーとは何でしょうか?ChatGPTを使用したことがある方なら、モデルを選択する部分があることをご存じでしょう。GPT-4o、スケジュールタスク、o1、o3、ミニ、一時的なチャート、GPT-4oミニ、GPT-4などがあります。これがモデルピッカーです。
このモデルピッカーを排除する最も簡単な方法の1つが、モデルルーターと呼ばれるものを使用することです。モデルルーターは、多くの企業が実際に採用している概念で、私がコンサルティングを行った多くのプロジェクトでも、ソリューションを実装する際によく提案することの1つです。コストを気にする場合は、何らかのルーターを持つ必要があります。より多くの計算力や高度な知性を必要とするリクエストは高価なモデルに送り、そこまでの知性を必要としない一般的な質問は小規模なモデルに送ります。
例えば、OpenAIを離れてGoogleについて考えてみましょう。Googleには安価なモデルであるFlashと、より高価なモデルであるProがあります。ルーターやモデルルーターを構築することができ、多くの企業が同じことを行っています。オープンソースのライブラリの1つを使用することもできます。
ユーザーのプロンプトをルーターに送ると、ルーターがProとFlashのどちらに送るべきか判断します。これにより、すべてのリクエストに最高のモデルを使用する必要がなくなり、リクエストの送信先を選択・決定することができます。これは現在、とても人気のある概念です。完全に普及しているわけではありませんが、大規模言語モデルのソフトウェア設計では人気のある概念です。
OpenAIも何らかの形でモデルルーターを実装するのではないかと私は考えています。各リクエストについて、そのリクエストの意図に基づいて分類し、適切なモデルに送ることになるでしょう。これがモデルルーターです。
次にSam Altmanが言及しているのは、Orionモデルについてです。GPT-4.5が最後の非チェーン・オブ・ソートモデルになるとのことです。これはどういう意味でしょうか?
現在のGPT-4oミニに何か質問すると、モデルがステップバイステップで考えるチェーン・オブ・ソートを生成することはありません。例えば、「1ヶ月に満月は何回ありますか?」と質問しても、思考プロセスを経ることはなく、チェーン・オブ・ソートを生成することもありません。
むしろ、これは単純な自己回帰的な次の単語生成です。チェーン・オブ・ソートもモデルによって生成されますが、それはチェーン・オブ・ソートでLLMを訓練することで実現されます。単に質問と回答でモデルを訓練するのではなく、チェーン・オブ・ソートモデルは通常、質問、答えに至るステップ、そして最終的な答えで生成されます。つまり、ステップが含まれているのです。
訓練プロセスが異なります。通常のモデル、例えば4oとチェーン・オブ・ソートモデルは、W1のようなものです。W1もテストタイムスケーリングを持っていますが、それについては触れません。単に内部チェーン・オブ・ソートを生成する能力は4oと4oミニにはありません。
Sam Altmanは、4.5あるいは社内でOrionと呼んでいるモデルが、非チェーン・オブ・ソートモデルの最後になると述べています。これは、世界全体がチェーン・オブ・ソートモデルの方向に進んでいくことを示しています。
Claude 3.5 Sonnetがチェーン・オブ・ソートモデルかどうかは、まだ分かっていません。内部チェーン・オブ・ソートを明示的に表示しないためです。しかし、モデルがとても優れているため、チェーン・オブ・ソートではないかと疑わざるを得ません。それ以外では、Googleは思考モデルを持っており、Deep Seekも思考モデルを持っています。そして、それが全ての企業が進んでいく方向性のように見えます。
このOpenAI製品ロードマップ更新で最大の発表は、GPT-5が単一のLLMではなく、システムになるということです。GPT-4と呼ばれる1つのLLM、GPT-4oミニと呼ばれる1つのLLMを持つのではなく、GPT-5はシステムになると言っています。
既存のすべてのモデル、OシリーズモデルやGPTシリーズモデルを統合し、いつ長く考えるべきか、いつ長く考えるべきでないかを知るシステムを作ることになります。先ほど説明したモデルルーターの概念のように、異なるタスクセットを持ち、そのタスクに基づいて判断を下すことになります。
つまり、GPT-5は単一のモデルではなく、システムになります。おそらく開始時にルーターを備えたモデルの組み合わせになり、o3もそれに統合されます。o3を単独のモデルとしてリリースするのではなく、GPT-5あるいは彼らが何と呼ぶにせよ、その中に組み込まれることになります。
これは少し混乱を招く可能性があります。なぜなら、これまではすべてが単一のモデルでしたが、今後はインターフェース、ソフトウェア、システム、エージェント、エージェンティックツール、あるいは好きな呼び方で呼べるものになります。それがGPT-5になるのです。
しかし、最も重要なのは、GPT-5のプラスサブスクライバーはより高度な知性を使用でき、プロサブスクライバーはさらに高度な知性を使用できるということです。これがどのように実現されるのかというと、テストタイムスケーリングと呼ばれるものによってです。
これらのモデルには、音声、キャンバス、検索、深い研究などの機能も備わります。テストタイムスケーリングとは何でしょうか?チェーン・オブ・ソートでモデルを設計する際、内部チェーン・オブ・ソート(OpenAIは生のチェーン・オブ・ソートを明示的に共有しません)があります。一方、Deep Seekのような企業は、チェーン・オブ・ソートを公開して共有しています。
例えば、モデルに数学の問題を与えるとします。「アブドゥルは40個のリンゴを持っていて、それを5グループの人々に分けたいとします。各グループは何個のリンゴを得ることになりますか?」という問題です。答えは8です。40÷5=8ですから。
しかし、どのように解くのでしょうか?実際には、モデルをステップバイステップで訓練します。「アブドゥルは40個持っています。人数は何人でしょうか?5人です。分ける必要があるなら、何をすべきでしょうか?割り算をする必要があります。そこで40÷5=8を計算します。」そして8が最終的な答えだと言います。これがチェーン・オブ・ソートです。
しかし、より長い問題があり、モデルにより長く考えてほしい場合はどうでしょうか?単純な算術の代わりに、代数を行いたい場合。代数の代わりに線形代数を行いたい場合。線形代数の代わりに積分を行いたい場合。微分を行いたい場合。あるいはそれ以上のことをしたい場合。化学方程式を解きたい場合。
異なる種類の問題には、人間がより長く考える必要があります。これは一般的なことです。単純なツイートを書く場合はX時間、ブログ投稿を書く場合はX+50%の時間、あるいはその逆で、ツイートの方にブログ投稿よりも多くの時間を費やすかもしれません。
すべてには異なるレベルの人間の思考が必要で、それがまさに推論モデルの全概念、あるいはGoogleが呼ぶところの思考モデルが登場する理由です。モデルがチェーン・オブ・ソートを生成するだけでなく、一度にチェーン・オブ・ソートを吐き出すのではなく、モデルにより長く考えさせます。
より良い解決策に到達できるよう、モデルにより多くの時間を与えます。最近、私たちはビデオで、それを行う最も簡単な方法の1つを紹介しました。プロンプトキャッシュなどに行き、思考トークンを生成するためにモデルにより多くの待機時間を与え、モデルがより良い解決策に到達するまでこれを繰り返すのです。
これを行うには多くの異なる方法があります。これがOpenAIのやり方だとは言っていません。これがテストタイムスケーリングです。これは現時点で最もホットな概念の1つです。モデルにより長く考えさせる方法です。そしてこれがまさにSam Altmanがここで言及していることです。
これが最後の非チェーン・オブ・ソートモデルになり、最新のモデルはチェーン・オブ・ソートモデルになると述べています。さらに、チェーン・オブ・ソート内でも、異なるティアのユーザーに対して異なるレベルの思考を持つことになります。
チェーン・オブ・ソートでもスケーリング則が機能することが確認されています。スケーリング則とは、機械学習やディープラーニングにおける概念です。技術的には、データをスケールアップしたり、計算をスケールアップしたり、モデルのサイズをスケールアップしたりすると(これが3つの主要なパラメータです)、精度が向上することを意味します。
すべての場合において精度が向上するため、線形的な成長が得られます。スケーリング則は従来、事前学習(モデルが構築される前)に使用されていましたが、人々は推論、つまりテストタイムスケーリングやテストタイム計算スケーリングでもスケーリング則が機能することに気付き始めました。
技術的にスケーリング則が機能するということは、モデルの思考時間を長くするほど、モデルの精度が向上することを意味します。これはOpenAIがARK AGIチャレンジで実証したことです。ARK AGIチャレンジでは、OpenAIのモデルがより長く考え、より良い解決策に到達しました。
ChatGPT Plus、ChatGPT Pro、ChatGPT無料ユーザーなど、異なるティアでも異なる思考時間が設定されることになりそうです。正直なところ、これはとてもエキサイティングだと思います。Sam AltmanとOpenAIが作り出す通常のハイプを除けば、これはLLMが現在のLLMやトランスフォーマーよりも大きく、より良くなる方法として、とても良い方向性に思えます。
もし覚えているなら、昔のLLMを思い出してください。昔のLLMは単に次の単語を生成するだけでした。質問に答えられる指示モデルはありませんでした。2年前の私のビデオを見ると、単に1つの文を与えると、LLMは次の文で空白を埋めるだけでした。
そこから質疑応答へと移行し、Pythonコードの生成が上手くなり、ツールへのアクセスを提供し、検索へのアクセスを提供するようになり、今では完全なシステムを持つに至りました。そしてまさにこの時期に、テストタイムスケーリングが登場してきたのです。
OpenAIが目指しているのは、すべてを統合して最大限活用することです。私はこの未来にとてもワクワクしており、正直なところ、Anthropicのような企業がどのように対応していくのかも楽しみです。
現時点で、OpenAIのレベルでこの規模で運営している企業は2、3社しかないと思います。Anthropic、Google、そしておそらくDeep Seekですが、Deep Seekは中国企業であるため、多くの人が懸念を持っているような状況です。しかし、彼らが進んでいく方向性は非常に興味深いものです。
これらすべての欠点は、オープンソース愛好家、オープンソース支持者の観点からすると、より閉鎖的になっていくということです。Samは最近、モデルを共有しないことは歴史の間違った側にいると述べました。もし歴史をご存じなら、Iliaがオープンソースに主に反対していた人物でした。
おそらく、より小規模なモデルはオープンソース化されるかもしれません。何が起こるかは分かりませんが、システムを統合することは常に、物事がどのように起こっているのか、何が行われているのかの透明性が低下することを意味します。
また、それはシステム、つまり確率的システムであって、ルールベースのシステムでも、ヒューリスティックベースのシステムでも、客観的なシステムでもないため、再現性が問題になります。何が起こっているのかを把握するのは本当に難しくなるでしょう。
しかし、これが非営利のOpenAIのおかげで私たちが生きている世界です。とにかく、私はとてもワクワクしています。この件についてどう感じるか、またこのビデオが理解できたか、他に説明が必要な点があるかを教えてください。また別のビデオでお会いしましょう。ハッピープロンプティング!

いいなと思ったら応援しよう!