ChatGPTにおけるOpenAI O1とO1プロモード - OpenAIの12日間:1日目
5,784 文字
皆さん、こんにちは。OpenAIの12日間へようこそ。私たちは、テクノロジー企業として前例のない試みを行おうと思います。これから12日間、平日毎日、私たちが開発した新しいものを発表もしくはデモンストレーションしていきます。本日から始まる素晴らしいものをご用意していますので、きっと皆さんに喜んでいただけると思います。楽しく手短に、時間を取り過ぎないようにしながら、私たちの取り組みをお見せし、ホリデーシーズンのプレゼントとしてお届けしたいと思います。
早速、この初日のお話に入りましょう。今日は2つのものを発表します。1つ目は、O1の完全版です。私たちは懸命に取り組んできました。皆さんのフィードバックに耳を傾け、O1プレビューは良いけれど、もっと賢く、速く、マルチモーダルで、指示にもっと忠実に従うものが欲しいという声に応えました。そして、科学者やエンジニア、プログラマーの方々には、この新しいモデルを本当に気に入っていただけると思います。
簡単にパフォーマンスについてお見せしましょう。GPT-4からO1プレビューへの進化、そしてO1プレビューから数学、競技プログラミング、GPQA、ダイヤモンドにおける飛躍的な進歩をご覧いただけます。他の面でも大きく向上していますが、純粋な知性は私たちが重視する部分です。特にコーディングのパフォーマンスは、多くの人がモデルを使用する分野です。
すぐに、このメンバーたちがO1についてデモを行い、速度や難しい問題への対応、マルチモダリティの性能についてお見せします。しかし、まず本日発表する2つ目のことについてお話ししたいと思います。
ChatGPTのパワーユーザーの多くは、月額20ドルで得られる以上の計算能力を求めています。そこで、新しい層としてChatGPT Proを発表します。Proでは、私たちのモデルへの無制限アクセスと、高度な音声モードなどが利用可能です。また、O1プロモードという新機能も備えています。O1は現在世界で最も賢いモデルですが、プロモードで使用されるO1はさらに上を行きます。
最も難しい問題に対して、O1プロモードではさらに良い結果を出すことができます。競技数学やGPQAダイヤモンドでの性能向上をご覧いただけます。これらの向上は小さく見えるかもしれませんが、モデルの限界に挑戦する複雑なワークフローでは、かなり重要な差となります。
プロモードについてもう一つお見せしましょう。人々が本当に求めているのは信頼性です。ここでO1と比較したプロモードの回答の信頼性をご覧いただけます。この差はさらに顕著です。パワーユーザーの皆さんからは、この機能への強い要望を多く聞いています。
ChatGPT Proは月額200ドルで、本日からサービスを開始します。この12日間で、皆さんにさらに喜んでいただけるような機能を追加していく予定です。無制限のモデル使用と、この新しいO1プロモードをご利用いただけます。
それでは、先ほどお話しした通り、デモンストレーションに移りましょう。ここにいるのは、他の多くのチームメンバーと共にO1の開発に携わったメンバーです。ありがとう、サム。
はい、私はヒョンウォンです。私はジェイソンです。そして私はマックスです。私たちは全員、O1の開発に携わった研究科学者です。O1は非常に特徴的です。応答する前に考えることができる最初のモデルとして開発され、他のモデルと比べてより良く、より詳細で、より正確な応答を提供します。O1は本日からすべてのPlusユーザーと、まもなくProユーザーとなる方々のChatGPTで利用可能となり、O1プレビューに置き換わります。
O1モデルは9月に発表したO1プレビューモデルより速く、賢くなっています。発表後、多くの人からマルチモーダル入力について質問がありました。そこで私たちはそれを追加しました。本日公開されるO1モデルは、画像とテキストの両方を組み合わせて推論することができます。
サムが言及した通り、本日はChatGPT Proという新しい層のChatGPTも発表します。ChatGPT Proでは、O1、4o、アドバンスト音声といった最高のモデルへの無制限アクセスを提供します。また、O1プロモードというO1の特別な使用方法も提供します。O1プロモードでは、最も難しい問題に対してさらに多くの計算能力を使用し、より深く考えることができます。ChatGPT Proは、すでにモデルの能力の限界まで数学、プログラミング、文章作成などのタスクを行っているChatGPTのパワーユーザーのためのものだと考えています。
O1プレビューを使って人々がどれだけ可能性を追求しているか、一日中技術的な作業をしている人々がどれだけ活用しているかを見るのは素晴らしく、さらなる可能性を追求できるようにすることを楽しみにしています。
また、O1は難しい数学だけでなく、日常的な使用でもはるかに優れていると考えています。特に、O1プレビューについて常に受けていたフィードバックの1つは、あまりにも遅いということでした。挨拶をしただけでも10秒考えていました。私たちはそれを修正しました。本当に迷惑でした。正直言って、ちょっと面白かったですね。本当によく考えていました。挨拶を返すのにも真剣に考えていました。気にかけていたんです。はい。そこで私たちはそれを修正しました。O1は今、より賢く考えるようになります。簡単な質問には素早く応答し、本当に難しい質問には長時間考えます。
このモデルについて詳細な人間による評価を行いました。その結果、O1プレビューと比べて重大な間違いを約34%少なくし、思考速度は50%速くなりました。これは皆さんにとって本当に顕著な違いとなると思います。
私は個人的にこれらのモデルと会話することを楽しんでいます。歴史好きなので、例えば、このようなモデルに尋ねる質問の簡単なデモをお見せします。ここで、左にO1、右にO1プレビューがあります。単純な歴史の質問をしています。2世紀のローマ皇帝について、その在位期間や業績を挙げてください。難しくはありませんが、GPT-4oでもかなりの頻度で間違えることがあります。
O1とO1プレビューにこれを尋ねてみました。オフラインでも数回テストしましたが、O1はO1プレビューと比べて平均して約60%速く応答しました。現在、O1プレビューからO1へGPUを切り替えている最中なので、少しばらつきがあるかもしれません。実際、O1は約14秒考え、O1プレビューはまだ考えています。
ローマ皇帝は本当にたくさんいますね。はい、4.0は実際にこれをよく間違えます。6日間、12日間、1ヶ月間だけ統治した人々がたくさんいて、時々それらを忘れてしまいます。6日間統治した人も含めて、全部暗記できますか?いいえ。はい。
さて、O1は約14秒、O1プレビューは約33秒考えました。展開が完了すれば両方ともより速くなるはずですが、今すぐ公開したいと思います。その通りです。このモデルとの会話を本当に楽しんでいただけると思います。より良い応答を、より速く提供し、すべての人にとってより良いユーザー体験となるはずです。
日常的な使用で人々が本当に求めていたもう一つの機能は、マルチモーダル入力と画像理解です。これについては、ヒョンウォンが説明します。
はい。マルチモーダル入力と推論を説明するために、手書きの図を使った簡単な問題を作ってみました。ここにあります。見にくいので、すでに写真を撮っています。ノートパソコンでこの写真を見てみましょう。ChatGPTに画像をアップロードすると、クリックして拡大表示できます。
これは宇宙のデータセンターのシステムです。将来、宇宙でAIモデルをトレーニングしたいと思うかもしれません。そうすべきだと思いますが、電力の数値が少し低いですね。1ギガワット。1ギガワット。はい。でも一般的なアイデアとしては。初心者レベルの数字ですね。はい。初心者レベル。初心者レベル。はい。
ここに太陽があり、このソーラーパネルで電力を得て、ここに小さなデータセンターがあります。まさにこんな感じですね。はい。GPU、そうです。すごい。そしてポンプ。素晴らしいポンプがここにあります。宇宙での運用について興味深いのは、地球では空冷や水冷でGPUを冷却できますが、宇宙には何もないということです。そのため、このGPUの熱を放射する必要があり、そのために巨大な放射冷却パネルが必要になります。この問題は、1ギガワットのデータセンターを運用するために必要な冷却パネルの面積の下限を見積もることです。
おそらくとても大きくなるでしょう。
はい。どれくらい大きいか見てみましょう。それが問題です。これをプロンプトとして入力します。本質的にそれを求めているんです。実行してみましょう。モデルは数秒間考えます。
ところで、ほとんどの人は知らないと思いますが、私はヒョンウォンと長い間一緒に仕事をしています。ヒョンウォンは実は熱力学の博士号を持っています。これはAIとは全く関係ないのですが、今日まで仕事で博士の研究を活かせなかったと冗談を言っていました。この分析については、ヒョンウォンを信頼して大丈夫です。ついに。ついにですね。
期待を高めていただいてありがとうございます。今度こそ正確にやらないと。はい。モデルの思考が終わりました。たった10秒です。単純な問題なので。モデルの解答を見てみましょう。
まず電力入力です。この1ギガワットは紙に書かれているだけでしたが、モデルはそれをうまく拾い上げました。そして放射熱伝達のみ。私が言及したように、宇宙では他に何もありません。そして、いくつかの単純化の選択をしています。
重要なのは、私が意図的にこの問題を不完全に指定したことです。つまり、重要なパラメータである冷却パネルの温度を省略しました。これにより、モデルの曖昧さへの対処能力をテストできます。モデルは、これが実際には未指定だが重要なパラメータであることを認識できました。そして、室温程度という適切な温度範囲を選択しました。
その上で分析を続け、結果として面積は242万平方メートルとなりました。これがどれくらい大きいかというと、サンフランシスコの陸地面積の約2%に相当します。これは巨大です。悪くないですね。悪くないですね。ああ、なるほど。残りの詳細は省略しますが、モデルは必要な面積を可能な限り小さくするための適切で一貫した仮定を立てることができたと思います。はい。
これがマルチモーダル推論のデモンストレーションです。これは単純な問題ですが、O1は実際にとても強力です。MMUやMathVistaのような標準的なベンチマークでも、O1は最先端の性能を示しています。では、ジェイソンがプロモードを紹介します。
素晴らしい。では、ChatGPT、O1プロモードの短いデモをお見せしたいと思います。O1プロモードは、難しい数学、科学、またはプログラミングの問題で最も有用だと思います。ここに、O1プレビューが通常間違える、かなり難しい化学の問題があります。モデルに考えさせてみましょう。これらのモデルについて私たちが学んだことの1つは、このような非常に難しい問題では、モデルは最大で数分間考えることがあるということです。この問題では、通常30秒から1分、時には3分ほど考えます。そのため、モデルが考えている間、皆さんを楽しませる必要があります。問題について少し説明し、モデルがまだ考えている場合は、残りの時間を埋めるためにパパジョークを用意しています。
ご覧のように、問題は非常に具体的な基準に合うタンパク質を求めています。6つの基準があります。課題は、それぞれが化学分野に特化した知識を必要とし、モデルがそれを思い出さなければならないということです。また、この問題について知っておくべきもう一つのことは、これらの基準のどれも正解を直接示していないということです。各基準について、その基準に合うタンパク質は何十もある可能性があります。そのため、モデルはすべての候補について考え、それらがすべての基準を満たすかどうかを確認する必要があります。
今回モデルは実際にもっと速く、53秒で終わりました。モデルが答えにたどり着くまでの思考プロセスを見ることができます。最初はニューロリガンドなどの異なる候補について考え、そして正解であるレチノシシンにたどり着きました。素晴らしいです。
まとめると、マックスからO1がO1プレビューより賢く速いことを、ヒョンウォンからO1がテキストと画像の両方で推論できることを見ました。そして最後に、ChatGPTプロモードを使えば、最も難しい科学や数学の問題についてO1に考えさせることができることを見ました。
ChatGPTプロ層にはさらなる機能が追加される予定です。モデルをさらに追求したい人のために、より計算集約的なタスクを可能にする長期的で大規模なタスクに取り組んでいます。また、ウェブブラウジング、ファイルアップロード、その他の機能などのツールをO1モデルに追加する作業も続けています。
また、O1をAPIに導入する作業も懸命に進めています。開発者向けの新機能として、構造化された出力、関数呼び出し、開発者メッセージ、APIでの画像理解機能を追加する予定です。これらを皆さんに楽しんでいただけると思います。開発者の皆さんにとって素晴らしいモデルとなり、エージェント的な新しいフロンティアを切り開くことができると期待しています。私たちが愛するのと同じくらい、皆さんにも気に入っていただけることを願っています。
素晴らしい。皆さん、本当にありがとうございます。これを完成させた皆さんとチームの皆さんに、おめでとうございます。O1とプロモード、またはプロ層を楽しんでいただけることを願っています。まだまだたくさんのものが控えています。明日は開発者向けの素晴らしいものをお届けし、そこからさらに続けていきます。終わる前に、あなたのジョークを聞かせてもらえますか?
はい。今朝作ったジョークです。サンタが大規模言語モデルに数学の問題を解かせようとしていましたが、一生懸命プロンプトを与えても上手くいきませんでした。最終的にどうやって解決したと思いますか?わかりません。「reindeer-forcement learning(トナカイ強化学習)」を使いました。ありがとうございました。ありがとう。