ライブディスカッション:OpenAIの12日間、o3がARC-AGIで75%を超え、Gemini-Flash 2など
31,314 文字
みなさん、こんにちは。久しくライブ配信をしていませんでしたことをお詫びします。今月は大変なことがあって、AIコミュニティだけでなく私個人の生活でもいろいろありました。優先順位の異なることをこなすのに追われていました。申し訳ありません。特にOpenAIの12日間の間、なかなかみなさんとお話しする時間が取れませんでした。とにかく驚くべき展開でした。
今日はあまり時間がないのですが、できるだけ多くのポイントを取り上げ、私の考えを共有し、さらに私が行ったベンチマークテストについてもお話ししたいと思います。
すぐに本題に入りましょう。まず、チャットを開いて皆さんのコメントに反応できるようにしなければなりません。いつも忘れてしまうので。みなさん、こんにちは。Funkadelic Professor、来てくれてありがとう。
まず最初のトピックはOpenAIの12日間についてです。全体的にとても印象的でした。大きなものでは、もちろんOWANとChatGPT Proモデルから始まりました。それから実際には...ああ、そうです。これは見ました。全部は見られていないんです。この2週間は本当に忙しくて。仕事が大変でした。政府が閉鎖される可能性があって。
結局それは避けられそうですが、NASAではそういう状況を想定していました。とにかく私にとってはとても大変でした。はい、O3は本当にすごいですね。OpenAIの12日間は見ようとしました。はい、今日はO3を見て、1-800-CHAT-GBTも見ました。アプリも使ってみました。私にとって最大のハイライトは、おそらく動画付きの高度な音声機能と、そうですね、サンタモードでしょうか。これはボーナスとして追加されたものです。でも高度な音声機能は動画と組み合わせて本当に大きな進歩でした。それからOWAN ProとSoraもありました。ただしSoraについては、皆さんにお見せしたように、ちょっと面白い結果でした。そして、もちろんO3もです。
まず、順番は前後しますが、O3がArc AGI賞のベンチマークで他を圧倒する結果を出しました。他のモデルを完全に凌駕したんです。O3とO1のパフォーマンスの差を見てください。O3の低バージョンとO1を比べても、その差は驚異的です。もちろん、タスクあたりのコストは$1,000の閾値に達すると現実的ではなくなってきます。それでも、76%という精度を達成したのは、これはログスケールなので、$20か$30程度の計算コストでできたということです。$1,000以上になるとちょっと過剰ですが、それでも衝撃的です。
O1 MiniやO1 Previewで10%をかろうじて超える程度だったのが、20%台、30%台まで上がり、そこから一気にジャンプアップしたのです。本当に信じられません。今日私はこんな考えを持ちました。計算量が170倍になったわけですが、Arc AGIが完全に征服されたとは言いませんが、こういった推論モデルが新たな高みに達したことで、これはディープブルーやアルファ碁の瞬間なのではないかと。さらにOpenAI O3はFrontier Mathでも25%のスコアを達成しました。
Frontier Mathについてご存じない方のために説明すると、25.2%の問題を解けたということは本当にすごいことなんです。Frontier Mathは数学におけるAIのベンチマークです。私もさっきそのサイトを見ていたんですが、O3は25%のスコアを達成しました。これらは熟練した数学者が解くような問題なんです。教科書に載っているような問題ではなく、研究レベルに近い数学の問題です。そんな問題の25%を解いたんです。2%から25%へのジャンプです。これは驚くべきことで、まさに桁違いの進歩です。
世界最高の数学者の一人とされるフィールズ賞受賞者のTerence Taoが「これらは極めて難しい問題で、少なくとも数年はAIには太刀打ちできないだろう」と述べていました。フィールズ賞受賞者のTimothy Gowersも「これらは本当に難しい問題で、ほとんどが私の能力を超えている」と言っています。これらの問題がどれほど難しいかがわかると思います。私自身もいくつか見てみましたが、この水準の数学は私には理解できないので、問題の難しさについてはコメントできません。でも25%を解いたということは驚くべきことです。約250問中60問ほどを解けたということです。
それを改めて書き出してみましょう。O3は...申し訳ありません、私も体調を崩していて、それも動画を作れなかった理由の一つなんです。でもこのことについては、病床を離れて動画を作らずにはいられませんでした。えーと、なんと言おうとしていたかな?みんなのいろんな意見に対応しようとしていました。おっと、どこだったかな?25.2%の問題をテストで解いて、従来の最高記録である約2%を大きく上回りました。フロンティア数学の各問題は、熟練した数学者でも何時間も、場合によっては何日もかかるような問題だと考えなければなりません。繰り返しますが、本当に驚くべきことです。
前の記録はフロンティア数学で2%でした。そこから一桁違う進歩です。25%というと、まだ失敗しているように見えるかもしれませんが、2%から25%への飛躍は、パフォーマンスの正当な一桁の進歩なんです。これらの問題は、専門家レベルの数学者が何時間も、何日もかけて解くような問題だということを考えてください。
今日、職場でこれらのことを聞いたときの私の状況を想像してください。政府閉鎖の可能性に備えなければなりませんでした。NASAは連邦政府の一部なので、閉鎖されれば私にも影響があります。そういう準備をしなければならず、そのことを考えていました。その一方でO3についての驚くべきニュースがあり、OpenAIの12日間全体も進行中で、本当に集中できませんでした。なので今日はみなさんとそのことについて少しお話ししたいと思います。
私は本当にこれがディープブルーやアルファ碁の瞬間のような出来事だと思っています。まあ、その水準までは行かないかもしれません。アルファ碁は誰よりも強かったわけですからね。AIが誰よりも優れているという状況までは行きませんが、でもかなり近づいています。
OpenAIがなぜO2という名前を飛ばしたと思いますか?ああ、商標登録されていたんですね。誰かがもう答えてくれましたね。ちょっと動画を巻き戻して見てみましょう。ベンチマークを見てください。本当に驚くべき結果です。競技数学では96.7%で、前は83.3%でした。GPQA DiamondのPh.D.レベルの科学の質問では、専門家でも約70%程度のスコアなのに、今回は87.7%です。凄まじいですね。ARC財団の代表も、ARC AGIを打ち負かしたような、新記録を打ち立てたと述べています。本当に信じられません。
このグラフを見てください。大きなグラフを出せますかね?これは本当に衝撃的です。競技プログラミングのCodeforcesでは、このELOスコアは世界のトップ200に入るレベルです。かなり凄いことです。O3はここで何かをしていました。そうそう、O3のリリースに関連して、安全性テストのために早期アクセスを提供しているのを知っています。申し込みたいと思っていますが、良い理由を考えなければなりません。私の動画は安全性テストというよりは、単に楽しんでいるだけなので。
でも、大手テック企業でAI安全性の仕事をしている友人がいて、興味を持つかもしれません。誰なのか明かすわけにはいきません。トラブルに巻き込みたくないので。でもAI安全性テスターの友人がいて、おそらくこれに関わりたいと思うでしょう。私たちは安全性テストについて話し合ってきました。その友人は本物のAI安全性テスターです。仕事でこれらのモデルのレッドチームを組んで、ジェイルブレイクを試みています。本物の安全性テスターなんです。
私は物理や数学の問題を投げかけているだけの人間ですが、近いうちにその友人と申し込みについて話をして、協力してもらえることを期待しています。正直なところ、私一人では良い申し込み理由が思いつかないと思うので。
「申し込み理由は必要ないよ、みんなあなたを知っているから」そうですね、でもちゃんとした申し込みをしたいんです。Tanya Norfordさんも同じですね。私も本当に具合が悪くて、かなり咳が出ています。たくさん咳止め薬を飲んでいるので今は大丈夫ですが、すごく鼻詰まりで頭痛もして。仕事が大変なので休めなかったんです。はい、いろいろなことが重なっています。
そうですね、O3についてはそれくらいです。まだアクセスできないので、これ以上のことはできません。他のことについても少し話したいと思います。ちょっと、私のを...ここに出してみましょう。今日は何について話そうとしていたんでしたっけ?申し訳ありません。思い出すためにサムネイルを作ったんですが。ああ、そうそう。12日間について。目を入れましたね。そうです。申し訳ありません。頭が働いていなくて、何を話すか思い出すのにサムネイルを見なければならないんです。
みなさんはGemini flash 2.0、正確にはGemini 2.0 flash experimentalのテストを見たがっていましたね。私もやってみました。国際物理オリンピード(IPHL)の問題を一問使ってテストしました。IPHLでのテストを見たがっている人が多かったので、ようやくやってみました。ただ一つの問題だけを与えました。おっと、何だこれは?違いますね。ああ、リンクが切れていたのかな。おっと、危なかった。
はい、GeminiとO1 proの両方にこの問題を与えてみました。人々がテストを見逃していることは分かっています。信じてください、私もテストが恋しいです。でも例の著作権の問題があって...それには触れたくないんですが、両方のモデルにこの問題を与えてみました。これは今年のIPHLからの問題です。
実は技術的には問題の半分だけを与えました。できるだけ詳細を省かずに、でもなるべく手短に説明したいと思います。AIスタジオを使っているのかという質問がありましたが、はい、使いました。これはGoogle AIスタジオからの質問です。この速度は本当に驚くべきものでした。その印象的な様子をお見せするために、もう一度質問してみましょう。
この答えはすでにチェックしました。完全に正しいわけではなく、部分的に間違いがありますが、考える時間の短さを考えると、本当に驚くべきものです。問題全体を最初から最後まで解ききることはできなかったと思います。計算のためのトークンが足りなくなったようです。でも約60秒しかかかりませんでした。
例えば、このIPHL問題をモデルに与えてみました。今やフロンティア数学の問題も解けるようになっているわけですが...申し訳ありません、O3ではなくて違うモデルの話でした。頭の中で混乱していますが、このIPHL問題をGemini Flashに与えてみました。速さの印象を掴んでもらうために、もう一度やってみましょう。このスピードには驚かされました。
フラッシュ思考実験版は、見てください。これが問題です。また試してみます。このスピードは本当に狂っています。11秒で解答を書き始めます。実際に最後まで行けるかどうかは分かりません。前回は試してみましたが、これは正しそうですね。詳しく見ていきましょう。このスピードを見てください。本当に速いです。答えは0.38くらいだったのだと思います。ここではそこまで正確ではありませんが、どのように解いたかを見てもらいたかったんです。O1 proにも同じ問題を与えましたが、10分くらい考え込んでいました。完全に公平な比較とは言えないかもしれません。それに今気付いたんですが、温度パラメータを1に設定してしまいました。前回は0に設定していたので、1にすべきではなかったかもしれません。
まあ、いいでしょう。ここでは最後まで行きませんでした。Gemini proと実際の答えを比較してみましょう。申し訳ありません、解答を取り出さないと。はい、これを。申し訳ありません。横に並べて比較できるようにしますが、1分でこれだけできるというのは本当に驚くべきことです。
比較を始めましょう。ここから始まりましたっけ?申し訳ありません、ウィンドウを調整させてください。はい。ここからですね。あ、これは間違えたかもしれません。えーと。GM1のX足すM2をM1足すM2で割って、a二乗足すY二乗。マイナスGマイナスX1マイナス...これは正しいですね。そして3乗のaまで。はい。これは正解です。最後に項がありますね。申し訳ありません、この項が長すぎて見えません。
申し訳ありません、具合が良くないんです。でも、そこは正解です。次のa2については。a2ではプロットのコードが必要です。ああ、そうだ。Googleコラボを使いましょう。a2では、こんな感じのものが必要です。前にやったことがありますが、みなさんのために新しいノートブックを作りましょう。0.4から0.6まで。面白いですね。点でやってみましょう。次は0.5でやってみるのはどうでしょう。
答えと比較してこのプロットがどう見えるか、手短に見てみましょう。前回は本当によくできました。ポテンシャルのM1 M2の位置...まあ、うまく間隔は取れていませんが、基本的な振る舞いは合っています。スケールが全然違うだけです。スケールを変えてみましょう。ここで何をしているんでしょう。最小値が5なのはなぜ?0からマイナス10までにしてみましょうか。良くないですね。ああ、これを反転させないと。申し訳ありません。matplotlib で軸を反転させるにはどうすればいいんでしたっけ?
申し訳ありません、具合が悪くて。はい、これでやりましょう。これ、これ、ちょっと見てみたいんです。はい、だいたいそんな感じです。基本的に...ちょっと待って。実際にうまくプロットできていますね。おお、なるほど。はい、実際にその通りですね。
a3はどこで間違い始めたんでしょう。0.48くらいのはずですね。はい、0.48くらいのはずです。数値計算で何か間違えたようです。少しだけずれていますが、それでもずれているということは、その後の問題の解答に影響を与えてしまいます。
でも、これらの問題をこんなに速く解けるということが、いかに驚くべきことかを強調したいと思います。M1マイナス、ベータアルファですね。これは2倍ほど違っているようです。M二乗マイナスM二乗、はい、これはいくつかの点で違っているようです。ああ、そうですね、立方根の中に入るべきなので、明らかに完璧ではありません。間違いもありますね。この式はかなり間違っています。係数がかなり違います。
でも、次元解析の観点からは正しい単位を持っているので、その点は評価できます。ただし、そこで間違えているので、ここでも間違えています。a7まで終わっていませんね。でも考えてみてください。たった1分の思考時間でこれだけのことができているんです。
誰かが0.6で試してみたらどうかと言っていましたね。えーと、一つずつ与えたらどうだろうという提案もありましたね。はい、そうすることもできます。ちょっと見てみましょう。まず、O1の結果をお見せしたいと思います。一つずつ与えていない理由は、時間がかかるのと、私が怠け者だからです。申し訳ありません。でも、みなさんが望むなら一つずつ試してみましょう。
それでは、下に移動して、ここから始めましょう。すべてを正しく解けなかったとしても、これだけの情報を与えて、ある程度理解できたということは驚くべきことです。はい、これがO1 proの結果です。11分くらい考えていました。かなり驚きですね。
11分も考えて、どうだったでしょうか。まず、最初の部分の答えは正しいです。M1をMで割ったものですが、MはM1足すM2です。はい、これらは正しいです。a2については言葉で説明していますが、だいたいそういう形になるはずです。左側のM1がある場所では深い井戸、右側のM2がある場所では浅い井戸、中央の重心付近では遠心力項による局所的な最大値。そんな感じですね。
a3については、数値計算から0.36と出ています。実際の計算過程は示していませんが、数値的に求めただけです。これが少し気になるところです。全ての過程を示してほしいのですが。確かにa3は0.36です。解答にもそう書いてあります。そしてa4はこの導出で、これらの式を得ています。
a4は正しいと思います。M2 M2マイナスM1ですね。M2をM2で割ってM1をM2で割るので。M2マイナスM1になってベータアルファが掛かります。はい、これは良いですね。それからDPDTについては、そうでもありませんね。これは...ああ、待ってください。Pがこれですよね。だからマイナス3掛ける2パイ。マイナス6パイa立方GMベータになります。あ、申し訳ありません。間違えました。Pが何かを書いていないだけで、こういう形で残していたんですね。申し訳ありません、また咳が...
申し訳ありません。先ほど言っていたように、a4は正解です。この項があるからです。はい、a4は正解です。a5は間違っています。たしか3倍くらい違っていたはずです。ここでも実際の計算過程を示していません。「コンパクト星の周りの薄い定常降着円盤では、局所的な実効温度がこれで与えられます。この結果は粘性散逸率を放射フラックスと等しいとおくことから得られます」と言っていますが、私が求めたように全ての過程を明確に示すべきです。
「O3のテスターに応募しましたか?」いいえ、まだ申請書を出さないといけません。はい、a5は間違っていて、a6もa5が間違っているために正しくありません。a6は9掛ける10の3乗くらいのはずですね。はい、そこで間違えているのでこれも違います。
a7については...この条件は正しいと思います。はい、a7でm1マイナスm2を2で割って、それからMV maxプライムは2GM1足すm2をaで割ったものです。完璧な解答ではありませんが、このテストを受ける人にとってはかなり良い線いっているのではないでしょうか。11分考えて、ある程度答えに近づけたと思います。フロンティア数学レベルの問題を解けるようになってきているので、こういった難しい問題を投げかけても解析できるようになってきているのは驚くべきことだと思います。
他に面白いことを一つ。私が自分で考えた問題があるんです。ある日、仕事中に考えついたものです。基本的な相対性理論の問題なんですが、少なくとも私が書いた形では前例のない問題です。この基本的な相対性理論の問題を与えたところ、答えは23、正確には22.5で、四捨五入して23になります。O1は49秒で解きました。
はい、理由付けも正しかったと思います。O1 proも...面白いことに、長さを与えていなかったので間違えたようです。与える必要があったと思います。それからGemini 2にも与えてみました。Geminiの結果を見てみましょう。プロンプトはどこでしたっけ...ああ、ここです。はい、Geminiも私の問題を解きました。時間は覚えていませんが...これが問題です。答えは23で、紙で計算して確認しました。
仕事中の机で考えついたんです。LLMでテストできる基本的な相対性理論の問題は何だろうと。考えついてそれを解くのに10分から20分かかって、それをモデルは13秒で解いてしまう。なんだか良い気分ですね。もっと難しい問題を考えないといけないということですが。温度パラメータの0.5は何を意味するんですか?基本的に、次のトークンを選ぶときの確率分布をコントロールするものです。最も確率の高いトークンを選ぶのではなく、温度パラメータに基づいて他のトークンを選ぶ可能性があります。
今ちょっと心配になってきました。1.225に4/3パイ...おかしいな。1キロメートル...ああ、これは1000を掛けないといけないんですね。でもそれでもかなり大きな数字になりますね。ああ、3.6が正しい温度ではないんです。ケルビン単位で考えないと...温度の変換をしましょう。
華氏からセルシウスへの温度変換...そうですね。華氏の3.6は...ああ、2ですね。すべてこのままにして...これを10の9乗で割って...あれ?正解でしたね。17188、17...まあ、技術的には17189を四捨五入して17190なので間違っていますが、基本的には正解です。
私のミスは温度差をケルビンではなく華氏で考えてしまったことです。誰かが「モデルに問題を考えさせたらどう?」と言っていましたね。それは面白そうですね。やってみましょう。どのモデルに聞くべきでしょうか。Flashを試してみましょう。まだFlashの能力をよく見ていないので。
大学レベルの物理の問題を考えてください。量子力学の分野で、1次元の時間に依存しないシュレーディンガー方程式に関する問題を作って、解答も示してください。
「これらのモデルを仕事で使えたらどれくらい恩恵があると思いますか?」私はI.Iの分野で働いていて、5-10%くらいの生産性向上があると思います。でも、失礼ながら、もっと大きな効果が得られると思います。私の仕事を本当に加速させられると思うんですが、NASAはこれらのモデルの職場での使用に関して非常に厳しいんです。
おお、この問題を見てください。量子...これは古典的な問題ですね。デルタ関数です。はい、これは量子力学でよく知られた問題です。具体的な指示をしなかったので、デルタ関数ポテンシャルを出してきました。右手の本に答えがあるはずです。ちょっと見てみましょう。グリフィスの本にも載っていたと思います。彼の解法はあまり好きではなかった気がします。これはうまく平方完成...いや、デルタ関数が欲しいんです。デルタ関数はどこだ?
ここにありました。問題4.4です。なんと、Gemini flashさん、盗作していますね。この本から問題を盗んでいます。まあ、よくある問題ですけどね。問題では「このシステムの束縛状態のエネルギーと規格化された波動関数を求めよ」となっています。束縛状態は指数関数のはずですね...申し訳ありません、ちょっと咳が...
確率の計算...それは正しいと思いますが...答えをウェブページ用のLaTeX形式で書き直してください。もっと読みやすくしたいんです。この問題を全部書き直しました。これは本当にすごいことです。私たちがこれらすべてをできることに感動しています。おお!それをOverleafにコピー&ペーストしてみましょう。みなさんと時間を共有できて嬉しいです。数週間ストリームができていなかったので。仕事が忙しくて病気もして。理解していただきありがとうございます。
おかしいな、なぜコピーできないんでしょう。テキストをコピー...なぜだ?これは変ですね。なぜコピーできない?クリップボードにコピー...ああ、いい感じですが、それでどうするんでしょう?申し訳ありません、ちょっと待ってください。何が起きているんでしょう?これは気にしないでください、あなたの趣味なんです、感謝しています。クリップボードにコピーされました...以前はコピーされていなかったんですね。何が問題だったのかわかりません。ドキュメントは...なぜ...何が起きたんでしょう?モデルの思考を隠すために折りたたむ...できませんでしたか。古い方法でやるしかないですね。ライブでやっています。ああ、なるほど、documentを定義していませんでしたね。それはまずいです。えーと、プラチナ試験ではないので、ここにgemini flashと書いてみましょう。
expleさんのリキャップから何を言っているか説明できますか、彼は感動していましたか?私も感動していますね。一緒に見てみましょうか。まだ見る機会がなかったので。うーん、document開始があったんですね。何が...何だこれは?おかしいですね。チャットが...これは狂っています。document開始...どこからすべてが始まったのか見つけないと。はい...ああ、もう、これは全部めちゃくちゃになってしまいました。見やすさを修正、ああ、ここから始めたかったんです。
はい、ここから大丈夫そうですね。答えを見てみましょう。うわ、これは醜いですね。ああ、何が起きているんでしょう?まず、何を言っているのか理解できるはずです。ここでの解答は...振り返りが必要な人のために説明すると、ランダムな問題を考えてくれと頼んだら、たまたま私の知っている、どこかで解かれている問題を出してきました。でも正直なところ、解ける量子力学の問題はそれほど多くないので、そこまで驚くべきことではないかもしれません。すみません...aはどこにあるんでしょう?本当にaを求めたんでしょうか...何てこと!aはkの平方根で、kは2MEをhバーの二乗で割ったもの...
aはそれに等しい...ちょっと待ってください...AIにコピー&ペーストの手伝いを頼んでみましょう...そうですね、それの方が良さそうです。documentの開始と終了がすでにある状態でOverleafにコピー&ペーストできる形式で回答してください。はい...ここで何をしているんでしょう?kは2MEをhバーで...はい、できました。あれ?良さそうですね。これをコピーして、そしてペーストします。変な言い方ですが。コピー&ペースト。ああ、少し読みやすくなりました。規格化された波動関数は...それは落とされた人の規格化波動関数?
面白いですよね...これは大丈�れ?デルタxのアルファを何と定義したんでしょう?それはMV0のはずです。ちょっと待ってください、私の答えは本に載っているものと少し違います。指数関数の形は合っているんですが、係数が少し違うようです。ちょっとグリフィスの本も見てみましょう。これは知られている問題です。
ただ今参加された方のために説明すると、量子力学の問題を考えて解いてくれと依頼しました。大学レベルの量子力学の問題です。そうしたら、分野では知られている問題を出してきました。実際の答えを覚えているほど知られているわけではありませんが、長い問題です。
ああ、グリフィスの例題2.5にありました。なんと厚かましい、グリフィスから問題をそのまま持ってきているじゃないですか。はい、まさにグリフィスから問題を取っています。ここで問題を出してきて...デルタ関数ポテンシャルですね。私の本を見てみましょう。顔を上げて...どこだったかな...ああ、そこです。盗んでいますね。盗作です。よくもまあ。なぜ私が問題を抱えているのに、彼らは問題ないんでしょう。
それはさておき...あ、誰かが良いアイデアを出しましたね。O1かO1 Proに採点してもらうのはどうでしょう?いいアイデアですね。たくさん作業をする必要はありません。AIに全部やらせましょう。それが狙いですからね。AIに仕事をさせて、私たちはしないということです。さて、どこから...ああ、すみません。
申し訳ありません。具合が悪くてふらついているんですが、できるだけ頑張りたいと思います。これをコピーできますか?どうやって...ああ、それでいいみたいですね。モデル同士でクロスフィードさせるんですね。
はい、いきましょう。まずO1に与えてみましょう。時間が必要なら後でProに渡します。量子力学の専門家として以下の物理の問題を読んでください。大学レベルの問題としての斬新さについてコメントしてください。斬新でない場合は、どこで見られる問題なのか、参考文献をいくつか挙げてください。最後に学生の解答を採点してください。
あなたは間違っているかもしれませんが、他の誰かがそれを理解できるでしょう。頭の中にあるだけです。この問題は解決に値するように見えます。これは長い問題のように見えます。まあ、これは単一ステップのポテンシャルだけですね。彼は練習しないのかな。あ、やっぱり練習するんですね。ほら見てください。これは既知の問題です。ここにあります。私は戻ってきました。OpenAIがたくさんあるようには見えません。彼らは今後数ヶ月ごとに指数関数的な飛躍を伴ってリリースすると言っているだけです。世界は狂ってしまうでしょう。
ええ、その間に見てください。問題はそこにありますね。見せられませんが、どこにありましたっけ。待って、待って、どこでしたっけ。ああ、5.2です。ほら、ページの一番下にあります。皆さんには見えないかもしれませんが、そこにあります。これは既知の問題なので、それを理解しています。新規性はないとされていますが、優れた教育的な例となっています。束縛状態を説明しているのですね。
解答は正しいです。正規化も正しく、定数も適切に扱われています。2つのデルタ関数は概念的に正しく、学生は物理的な直感を助けるために答えを図示しています。素晴らしい。学生の解答は徹底的で、数学的に正確で、明確な物理的推論を示しています。各部分は慎重に扱われ、最終的な答えは文献で見られる標準的な結果と一致しています。この解答は典型的な学部量子力学コースで高い評価を得るでしょう。
そうですね。これは私がこの本の問題を見たときに基本的に理解していることです。実際、Gemini Flashは著者たちよりもさらに詳しく解いたと言えるでしょう。あ、またくしゃみが出そうです。ああ、死にそうです。ええ、今ここにありますね。正解です。本の中でまさにここを見ています。よくやりました、Gemini Flash。量子力学の古典的な問題を取り上げ、うまく解きましたね。
ああ、これは文字通り宿題の課題を生成するようなものになり得ますね。例えば私が教授として講座を教えていたとしたら、これを使って...待ってください、ウィンドウの表示がおかしいですね。何が起きているのでしょう。リセットできますか?ありがとうございます。戻りました。これを0.5に下げましょう。また0に戻して...
はい、あなたは大学院レベルの電磁気学の講師で、有名な教科書「Classical Electrodynamics」(J.D. Jackson著)を参考にしているとしましょう。本からの問題を一語一語剽窃することなく、静電場の境界値問題とグリーン関数に関する3〜5問の問題セットを作成してください...
システム指示はどこにありますか?システム指示は...ああ、ああ、それについて知りませんでした。何てことだ、どうやって知ったんでしょう。Jacksonの中で...よし、見てみましょう。どのように考えているでしょうか。要求を分解して、大学院レベルの5つの問題を作成し...
さて、クラスの皆さん。電磁気学、静電場の境界値問題、そしてグリーン関数の威力について理解を深めましょう。Jacksonのテキストで探求した概念からインスピレーションを得て、新しい視点を加えた問題セットを用意しました。推論を明確に述べ、すべての過程を示すことを忘れないでください。
問題1: 電荷ドーナツの不思議な場合
半径aの円を z軸の周りに回転させて作られるトーラス領域を想像してください。円の中心は z軸から距離b(b>a)にあります。これがドーナツを形成します。このトーラス問題には静的な電荷密度ρ5プライムが含まれており、それはρcos(5φプライム)に等しいとします。ここでφプライムはトーラス座標系の方位角です。
ポテンシャルを明示的に計算することなく、結果として得られる静電ポテンシャルφ(r)の対称性について定性的に議論してください。ポテンシャルはどの座標に依存するでしょうか?電荷密度は方位角的に対称なので、半径にも依存しないように見えます。
この設定について考えてみましょう。積分...ブラブラ...この場合を考えます。これらの質問について考えなければなりません。まさにやりたくなかったことです。この四分円について考えるのは...さて、問題の解答をLaTeXで作成して、Overleafにアップロードして表示できるようにしましょう。
私は今、脳細胞が目覚めているのを保つのに苦労している状態で大学院の電磁気学をやる気はありません。見てください、どんどん進んでいきます。正直なところ、これらの質問を他のLMSに投げかけたいだけです。すべてをクロスリファレンスして、比較可能な解答が得られるかどうかを確認します。
これは委員会で行うことができます。これを皆さんの宿題として出題し、最後にLMSと答え合わせをしなければなりません。それが私たちがやらなければならないことです。マウスの動きもおかしいですね。なぜでしょう。
それは削除できると思います。よし、これでよさそうです。何が出てきたのか見てみましょう。これはパットナム試験ではありません。別の名前をつけるべきですが、ポテンシャルの対称性は...定性的にはできません。
ああ、これはグリフィスで見るような問題ですね。この種の積分は期待通りのものです。本当にひどい積分のようです。一般形...はい、これは標準的です。ルジャンドル多項式があります。直交条件を使用します。cmはこれに等しい...待って、実際には解いていないのですか?何てことだ、実際には解いていないじゃないですか。嘘つきめ!よくもそんな...実際にはどれも解いていないのに!愚か者め!
ああ、これはジャクソンの電磁気学そのものですね。これをO1 Proに投げかけてみたらどうでしょう。ああ、これは面白そうです。私たちはこれらのLMSを拷問にかけようとしているのでしょうか。誰がより難しい問題を出せるかという...
これは何をすべきか...ブラブラブラブラブラブラブラブラブラブラブラブラブラブラブラブラブラ...ここに行って忘れましょう。はい、そこに行きましょう。O1 Proに素早く与えてみましょう。どう考えるか見てみましょう。人々がLMSを使って他のLMSが解けない問題を考え出すような競争があるべきですね。
水を飲みながら、これが動くのを待ちましょう。O1 Proについて言えることは、時間がかかるということです。
それはARCチャレンジですね。ARCチャレンジは正方形とドットなどの全体的なものだと思っていました。
実際に何か進展があるようです。
はい、O3は平均的な人間を上回りました。私たちは負けましたね。チャット、私たちは負けたのでしょうか?若者が言うように。私たちは負けたような気がしますが、間違っているかもしれません。これが進むのを待っている間に、AIが...
はい、彼のチャンネルも好きです。時間がかかるかもしれません。O3、すごい!ありがとう、パイ、チャットの皆さん感謝します。私たちはO3と呼ばれる新しいものについて今夜発表されたような気がします。人工知能が壁にぶつかっているという最後の反証になるかもしれません。OpenAIは壁を乗り越えただけでなく、壁が壁の後ろにあり、壁が壁の後ろにあり、壁が実際には存在しなかったという証拠を提供したようです。
今夜の本当のニュースは私にとってではありません。O3は何十年も存在するはずのベンチマークを粉砕しました。OpenAIは、ベンチマークできるものは何でも、Oシリーズのモデルが最終的に打ち負かすことができることを示したのです。
どんな課題でも考えてみてください。その課題が最終的に推論に従うものであり、推論のステップがトレーニングデータのどこかに表現されているならば、Oシリーズのモデルは最終的にその課題を粉砕するでしょう。はい、これらのベンチマークのいくつかを打ち負かすのにO3やOpenAIに35万ドルの思考時間がかかったかもしれません。35万ドル?ああ、高性能コンピューティングのコストを公開しなかったのですか?計算量は低性能の約172倍でした。低性能は...待って、ああ!混乱してきました。スポットコスト。
そこから数字が出てくるのですか?172倍?すごい!一回の処理に35万ドル...でも、価値はありましたよね?はい、注意点はあります。いつもそうですが、今回はかなりあります。しかし、これはAIにとって記念すべき日であり、聴いている人のほとんどは自分のタイムラインを調整すべきだということを認めなければなりません。
とんでもないベンチマークスコアに入る前に、O3とは何なのか?彼らは何をしたのでしょうか?このチャンネルの以前の動画でOシリーズのモデルについてより詳しく説明しましたが、30秒でまとめてみましょう。
OpenAIはベースモデルを使って、答えに至る長い思考の連鎖に従って数百または数千の候補解を生成しました。おそらく同じベースモデルに基づく検証モデルが、これらの回答をレビューしてランク付けし、典型的な計算ミスやリアルタイムの計算、あるいは推論ミスを探します。その検証モデルはもちろん数千の正しい推論ステップでトレーニングされています。
しかし、ここがポイントです。数学やコーディングのような科学分野では、正しい答えが何であるかを知ることができます。したがって、システムが正しい推論ステップのセット、つまり正しい検証済みの答えにつながるステップを生成するとき、モデル全体をそれらの正しいステップで微調整することができます。
これは根本的に、次の単語を予測することから、客観的に正しい答えにつながるトークンの系列を予測することへと我々を移行させます。正しい答えだけでの微調整は強化学習として分類することができます。
では、O3とは何でしょうか?OpenAIの研究者が今夜私たちに語ったように、O3はO1を超えて強化学習をさらにスケールアップすることで動作します。O1に特別な材料は加えられていないようです。秘密のソースもなく、壁もありません。だからこそ私は「壁はない、オルトマン氏。この壁を取り壊してください」と言ったのです。
サムは知っていたのです。この狡猾なサムは、彼らが何をしたのかを知っていました。ベンチマークできるものなら、Oシリーズのモデルは最終的にそれを打ち負かすことができるということを。最初の日は「ああ、O1 Proだ」と言い、12日目にはO3が出てきて、「すごい、Oシリーズのモデルは最終的にそれを打ち負かすことができる」となったのです。
しかし、O3での今回の飛躍が完全に予測可能だったということを示唆したくはありません。はい、今年の最初の動画でAIが指数関数的に成長していることについて話し、検証機能や推論時の計算量についても言及しました。より多くの候補解を生成するための推論時の計算という fancy な用語です。
しかし、これほどの飛躍がこんなに早く起こるとは予測しなかったという点で、私はかなりの良い仲間にいます。簡単に数学の最前線から始めましょう。O3はどうやってこれを達成したのでしょうか。
これは今日、最も難しい数学のベンチマークと考えられています。私はこのストリームの最初でこれについて触れましたが、全体的な規模の善さについてです。これは新規模とは...これは非常に、非常に難しい問題で構成されたデータセットです。プロの数学者でもこれらの問題の1つを解くのに何時間も、あるいは何日もかかることでしょう。そしてモデルは問題の4分の1を解いたのです。どのくらいの時間がかかったかはわかりません。今日、他のすべての提供されているモデルは2時間未満です。
このベンチマークの重要な点は、25%を超えることができたということです。今夜の発表ではありませんでしたが、バーの暗い部分、小さい部分はモデルが1回の試行で正解を出したもので、明るい部分はモデルが多くの異なる解答を出して、最も頻繁に出てきた合意解が正解だったものです。時間とコストの詳細は後で触れますが、25%という達成は記念碑的なものです。
テレンス・タオはこう言いました。「これは本当にクレイジーだと思います。ARCで77%、約35万ドル使って90%近く、そしてフロンティア数学でこれほどの成績を収めるなんて」。タオの言葉です。「これらは非常に難しい問題です。近い将来、その分野の本当の専門家を持たずにこれらを解く唯一の方法は、関連分野の大学院生のような準専門家と、現代のAIやその他多くの代数パッケージの組み合わせによるものだと思います。」
彼は間違いなく世界で最も賢い人物の一人です。「近い将来、その分野の本当の専門家を持たずにこれらを解く唯一の方法は、関連分野の大学院生のような準専門家と、現代のAIやその他多くの代数パッケージの組み合わせによるものです。」O3は代数パッケージに依存していないことを考えると、彼はO3が本当の専門家でなければならないと基本的に言っているのです。そして答えはノー、彼は...書いてみましょう。でも私は単に数学の専門家です。
要約すると、テレンス・タオはこのベンチマークはAIに少なくとも数年は抵抗するだろうと言いました。サム・オルトマンは、完全なO3を2月か、少なくとも来年の第1四半期にはリリースするつもりだと示唆しているようでした。
これは私にとって少なくとも、彼らがこのスコアを得るために地球上のすべてのGPUを使い果たしたわけではなく、現実的に一般に提供できないということを示唆しています。言い換えれば、私たちは今日利用可能なコンピューティング能力の限界にさえ達していないのです。次世代のO4は来年第2四半期までに、O5は第3四半期までに登場する可能性があります。
OpenAIの別のトップ研究者はこう言いました。「O3は非常に高性能です。より重要なのは、O1からO3への進歩がわずか3ヶ月だったということです。」3ヶ月?それはクレイジーです。本気ですか?これはムーアの法則をステロイドで強化したようなものです。これはクレイジーです。思考の連鎖に対する強化学習の新しいパラダイムでは、1〜2年ごとの新しいモデルという事前学習のパラダイムよりもはるかに速いです。
私たちはGPT-5を手に入れることはないかもしれませんが、AGIを手に入れます。もちろん、安全性テストによって、これらの新世代モデルの一般公開が遅れる可能性は十分にあります。そのため、フロンティアラボが自身で利用できるものと一般に公開されているものとの間に、ますます大きな格差が生じる可能性があります。
大学院レベルの科学のGoogle証明はどうでしょうか?ショーレイが何を言ったか見てみたいですね。数分前に私たちが考え出した問題も完成しています。私はこれを詳しく見ていく時間は今はありませんが、これは難しいです。これについて考えてみたいですね。
ああ、面白いことに、怠け者になったようです。ここには「これらの係数を解く試みは必要ありません」とあります。ああ、それは質問の一部だったのかもしれません。私はこれらの内容をどこから引っ張ってきたのか忘れてしまいましたが、ビデオを見終わった後で見直してみましょう。
goodness gracious(おや、まあ)。私は圧倒されています。なぜなら、このような問題は少なくとも簡単ではなく、どこから始めればいいかを知るのにも時間がかかることがあります。この問題をどこから始めればいいのか、数時間考えるだけかもしれません。そして、他の大学院生と話し合って、何が起こっているのかを議論しなければなりません。
そして、これらは完全に正しくなくても、少なくとも他の人がどのように考えるかについてのアイデアを与えてくれると思います。そしてそれは私たちが十分に話していない大きな利点だと思います。たとえ正しくなくても、出発点を与えてくれます。この問題についてどのように考えることができるか、自分自身の解決策を考え出すためのより良いきっかけを与えてくれる出発点です。
教育は...私には分かりません。教育は完全に...根本的に異なるものにならなければならないと感じます。それをどのように定量化すればいいのか分かりませんが、想像してみてください。私は電話でO1ビデオを持っています。O1ビデオはとても素晴らしいのですが、あまり使っていません。しかし、今や誰もが本当にスマートな人を持っています。インターネットにアクセスでき、あなたのために何でも調べることができ、あなたと一緒に問題を解決できる人が電話の中にいるのです。
実際、ここで私は少し好奇心をそそられます。これは機能するのでしょうか?ちょっと待ってください。本当に簡単なテストをしてみましょう。ビデオを見ていましたが、何かをやってみたいのです。ああ、申し訳ありません。1秒お待ちください。O1が私のために何かできるかどうか見てみたいのです。
私の電話を...これはどうやるのでしょうか?私の電話を私のコンピュータに表示する方法があると思います。これをどうやるか考えてみましょう。実際にこれについてあまり考えていませんでした。Alphaからランダムな問題生成器を使ってみましょう。O1にこれができるか確認したいだけです。ああ、背景を変更する必要があります。
1秒お待ちください。何か悪いものではありませんが、私にとって特別な人なので、ライブストリームで公開したくありません。それは公平ですよね?はい、それの方が良いです。O1...申し訳ありません。あちこちに飛んでいます。私のストリームは常に少し...クレイジーですが、この動画機能を使いたいのです。
これはどうやるのでしょうか?4でしょうか?ああ、4はどうやるのでしょう?そして音声は使わない。ああ、ここにあります。では、これをどうやってやりましょうか?
hey, are you there?(もしもし、聞こえますか?)ああ、おっと。申し訳ありません。ヘッドフォンを外さないと。私の電話をオフにしましょう。ヘッドフォンで聞こえていたに違いありません。これは本当にクレイジーです。新しい機能をすべてテストする時間さえなかったのです。それがクレイジーな部分です。
自分でこれらすべてを教える時間さえなかったのです。5年前には自分のホログラムボット先生の前にいた子供たちのように...正確にはどの子供たちのことか覚えていません。hmm(うーん)。申し訳ありません。分かりません。ああ、iPhoneのミラーリングがロックされています。ああ、パスワードを入力しなければなりませんね。
これはできますか?はい、できました。では、問題生成器を使ってみましょう。本当に基本的なことをやってみましょう。ああ、iPhoneが近くにありません。ああ、WiFiが接続されていないからですね。申し訳ありません。では、もう一度試してみましょう。はい。iPhoneのニュース。iPhoneが使用されなくなったらiPhoneと接続します。
それはどういう意味でしょうか?iPhoneが使用されなくなったらどういう意味でしょうか?エンダーズゲーム。電話をロックして再起動してください。iPhoneのミラーリング接続。iPhoneのミラーリングは初めてなので申し訳ありません。BluetoothとWiFiを有効にして。ああ、Bluetoothも有効にする必要があるのですね!
ああ、これを理解しようとしています。申し訳ありません。これがどのように機能するのか分かりません。iPhoneのミラーリング機能...カイルのiPhoneに接続中...ああ、これは変です。はい、自動的に認証...このように皆さんに私の電話へのアクセスを許可するのは好きではありませんが、まあいいでしょう。
これはどうやるのでしょうか?これは初めてなので...私のO1はどこですか?私のChat GPTアプリはどこですか?こんにちは、Chat GPT...はい、ここにあります。これは本当に変です。ああ、ここにあります。それが見えるかどうか...Macからは利用できません。もしもし、聞こえますか?iPhoneはMacからは利用できません。
なんだか残念です。もしもし、もしもし。ライブを使用しないでください。Macからは利用できません。ああ、では見せることはできないということですね。それはできないのですか?はい、電話でやってみましたが、機能しないようです。
ああ、胸が痛い!では、もう一度試してみましょう。皆さんにビデオをお見せするだけにしましょう。私です、こんにちは。聞こえますか?はい、はっきりと聞こえます。何かありますか?私の後ろに何があるか教えてくれますか?グリーンスクリーンが見えます。ビデオ作品を作る予定ですか?
はい、はい、そうです。マイクボタンを押さないでくださいと書いてあります。1秒お待ちください。了解しました。マイクボタンは押さないでください。電話からできると言っているのですか?電話使用中...はい、Macからは電話を利用できません。まだ機能していません。申し訳ありません。電話やスクリーンアプリで機能させることができません。申し訳ありません。
もう一度試してみましょう。電話からやるしかありません。このようにやるしかありません。はい、こんにちは、私が見えますか?はい、見えます。今日はどのようにお手伝いできますか?5から3を引くとどうなるか、4歳児に説明するように手伝ってもらえますか?
もちろんです。りんごを5個持っていて...待って、タガログ語でお願いできますか?タガログ語を本当に学びたいのです。もちろんです。りんごを5個持っていて3個取り除くと2個残ります。待って、話していません...ああ、そこにいましたね。続けてください。申し訳ありません。
まあ、実はタガログ語は理解できないので、これは面白すぎます。高度な...高度なものの違いは何でしょうか?待ってください、徐々にレベルを上げていきます。4-0だと分かっていますが、これで遊んでみたいのです。今週はこれを使っていませんでした。
こんにちは、345と177の問題を解くのを手伝ってもらえますか?私のためにやってくれますか?もちろんです。345と177の差は168です。すごく賢いですね。では、別の問題をやりましょう。掛け算をしてみましょうか?もちろんです。どの数字を掛けたいですか?
画面の問題が見えますか?はい、画面に問題が見えます。負の178に負の2557を掛けるとどうなるかという問題です。手伝いが必要ですか?もう一度読んでもらえますか?正しく読めましたか?もちろん、確認させてください。負の178に負の2557を掛けるとどうなりますか?という問題です。最後に疑問符がついています。
了解しました。負の178に負の2557を掛けるとどうなるかという問題ですね。では掛け算をしてください。答えは何ですか?もちろんです。負の178に負の2557を掛けると455,246になります。何?455,255,266?はい、それは正しいです。別の問題に進みましょうか?いいえ、それは正しくありません。なぜなら、それは7だと思っていますが、実際には疑問符です。7ではありません。申し訳ありません。数字は実際には負の255で、負の2557ではないようですね。その通りです。
では、正しい掛け算は負の178に負の255を掛けて45,390です。45,390。ああ、正解です。よかったです。他の問題を試すか、別のことをしましょうか?はい、別のことをしましょう。積分を素早くやってみましょう。待ってください、ゼロから無作為な積分ができるのか知りたいだけです。印象的な修正だと思います。
ああ、もう6時37分です。7時15分に友人と夕食を食べるので、そろそろ行かなければなりません。申し訳ありません、今日はあちこちに飛んでしまいました。体調があまり良くないのですが、実際に見てみたいと思います。または微分をやってみましょうか?微分ができますか?
通常は積分をやります。微分は時々簡単すぎると思うからです。でも連鎖律をやってみましょう!難しいのをやりましょう!ここで連鎖律です。ああ、これは少し難しくなりそうです。もう少しやってみましょう。これは余弦1/6...ああ...これは余弦1/6π6x掛ける内側のすべての微分になるはずです。
それは...待って、πだけのはずです。待って、ただのπのはずですよね?はい、余弦1/6π6プラス6x掛けるπのはずです。6と6が相殺されるので。それが答えのはずですよね。はい、それが答えだと思います。もう一度試してみましょう。
こんにちは、今日はどのようにお手伝いできますか?こんにちは、画面のこの関数の微分を手伝ってもらえますか?もちろんです!画面の関数は、この関数の微分の正弦です。6プラス6xの。ステップを説明しましょうか?
まあ、何か見落としているようですが、もう少し注意深く読んでもらえますか?括弧の中は何と書いてありますか?ええ?もちろんです。括弧の中はxプラス6の除算です。それで合っていますか?いいえ、それは正しくありません。
了解しました!式はxプラス6の除算の正弦のようです。微分を続けましょうか?いいえ、結構です。では、私は実際に正解だったのか確認したいだけです。1/6掛けるπ掛ける6プラス6x掛けるπ。ああ、何を言っているんですか?冗談ですか?
はい、正解です!微分の仕方を覚えていました。私は賢いです。バカなやつ、バカなやつ、よくもそんな!実は親切にすべきでしょう。実際に正しい...そこの式を認識しました。待ってください、実際に式を正しく認識しましたが、正しく言わなかったので混乱してしまいました。ああ、何てこと!では、もう一度試してみましょう。申し訳ありません、今度は実際にそれを認識したので...よし、この関数の微分の取り方を教えてください。
もちろんです。e^(5x)掛ける√5xの微分を取るには、積の法則を使います。まず各部分を微分します。指数関数と平方根関数、そして2x+6の微分の微分の微分の微分の微分を使って、2e^(2x+6)で1を得ます。ここにありますが、ステップバイステップで示しましょう。積の法則の公式をステップバイステップで説明しましょうか?はい、お願いします。
2x+6のe^への微分が3に変わり、2x+6のe^掛ける指数の微分xxプラスXは2です。6掛けるoの微分は2なので、2x+6のe^は2になります。積の法則を適用し、指数2x+6の微分である1を掛けます。つまり2e^√5+x掛ける第二の微分である2、掛ける指数の微分である2を得ます。そして積の法則を適用し、最初の関数に第二の関数の微分を掛けます。どういたしまして。お手伝いできて嬉しいです。
ああ、そうは言いませんでしたが。最終的な微分は...待って、e^(2x+)...これはとても混乱していますね。ああ、本当に間違えてしまいました。まず第一に、指数を認識していなかったからです。それは馬鹿げています。
うーん。かなり扱いにくいですね。指数を正しく認識できませんでした。e^(2x+6)ではありません。そうではありません。それで、ありがとうと言っただけです。私は「うーん、何もありがとうございません」というような感じです。おっと。まあ、まだ改善の余地がありますね。でも結構クールです。
はい、ビデオに戻りましょう。ビデオを見て、それから夕食に行かなければなりませんが、申し訳ありません。今日はすべてがちょっとあちこちに飛んでしまいました。
これらの私たちがモデルに尋ねた問題について、まだ驚いています。これらのジャクソンレベルの問題とか。ああ、この問題セットを再びやりたくはありません。しかし、正直に言って、本当に驚くべきことです。皆さんに正直に言うと、今日は言葉を失っています。今日はAIにとって記念碑的な日だと感じました。冗談抜きで。
earlier(前に)、これはディープブルーやアルファ碁の瞬間のような気がすると言いましたが、一般的なタスクと推論のためのものです。チェスや囲碁だけでなく、すべてのことにディープブルーや、より適切にはアルファ碁のようなシステムを持つことを想像してみてください。
さて、ある OpenAIの研究者が言ったように、そのベンチマークのために黙祷を捧げましょう。2023年11月に生まれ、わずか1年後に死んでしまいました。なぜGPQAはR.I.P.なのでしょうか?ああ、実は開発者の日にウェルに会いました。面白いことに。7.7%です。ベンチマークは作られるのとほぼ同じくらい速く粉砕されています。
次に競争的コーディングがあります。O3は世界で175位の高得点者となり、人間の99.95%よりも優れています。それは競争的コーディングであって、実際のソフトウェアエンジニアリングではないと言うかもしれません。しかし、実際のソフトウェアエンジニアが直面する実際の問題をテストするSWE benchがありました。検証済みという部分は、ベンチマークの10%だけが精査されたことを指しています。
そのため、本当に明確な答えのある本物の質問を得ることはできないでしょう。Claude 3.5 Sonnetは49%を獲得しました。O3は71.7%です。Claudeの作者であるAnthropicのCEOが予見したように。私たちが最近リリースしたモデル、Sonnet 3.5、新しいまたは更新されたバージョンは、SWE benchで約50%を獲得します。SWE benchは、プロフェッショナルな実世界のソフトウェアエンジニアリングタスクの例です。
年初には、最先端の技術は3〜4%でした。つまり10ヶ月で、このタスクで3%から50%まで上がったのです。そして1年後には...これはすごいことです。また、まだ聞いていない方は、ダリオ・アマデイの「Machines of Loving Grace」エッセイを聞くことをお勧めします。
YouTubeに本当に面白い動画があります。「Machines of Loving Grace」です。本当に面白い...どこでしたっけ?これです、「Machines of Loving Grace」。ダリオ・アマデイのAI生成音声で読み上げています。一般の人々には何が来るのか分かっていないと思います。「normies」という言葉は使いたくありませんが、あなたの意見に同意します。人々の人生の一部がこれらの extraordinary な瞬間で構成される可能性があります。
はい。「Machines of Loving Grace」を聞いたことがない方は、チャットに入れておきます。いつか皆さんに聞いてほしいと思います。申し訳ありません、OBSの画面をドラッグしてしまいました。でも、まだ聞いていない方には強くお勧めします。AGIの未来について本当に素晴らしい考察だと思います。
O3に戻りましょう。このビデオを何度も一時停止することはないと約束します。90%になるかもしれません。私には分かりませんが、もっと少なくなるかもしれません。ちなみに、これらは未見のプログラミングコンテストでした。これはデータ汚染ではありません。繰り返しますが、ベンチマークできるものなら、Oシリーズのモデルは最終的に、あるいは間もなく打ち負かすでしょう。
面白いことに、このチャンネルを注意深く見ていた方は、昨年のこの時期にCodeforcesでこれが来ることを予想できたかもしれません。GoogleはAlpha Code 2を作り、Codeforcesコンペティションの特定の部分で参加者の99.5%を上回る性能を示しました。そして予言的に、より多くのサンプルでパフォーマンスがほぼ対数線形的に向上することを発見しました。
はい、もちろんARC AGIについても触れますが、最初の注意点を入れておきたいと思います。ベンチマークできない場合、あるいは少なくともベンチマークが難しい場合、または分野が推論ステップに従いにくい場合はどうなるでしょうか?例えば、個人的な文章はどうでしょうか?
OpenAIは9月に認めていましたが、O1 Previewから始まるOシリーズのモデルは、一部の自然言語タスクでは好まれません。これはすべてのユースケースに適していないことを示唆しています。繰り返しますが、タスクを考えてみてください。そのタスクには客観的に正しい答えがありますか?Oシリーズはそれをすぐに打ち負かすでしょう。O3が今夜証明したように、そのタスクがどれほど難しくても関係ありません。
しかし、答えの正しさや出力の質がより好みの問題である場合はどうでしょうか?それを打ち負かすにはより時間がかかるかもしれません。しかし、コアとなる推論、分布外の一般化についてはどうでしょうか?昨年初めにこのチャンネルで扱い始めたことです。
コストやレイテンシーを一旦忘れて、私たちが知りたいのは、これらのモデルがどれほど本質的に知的かということです。それが他のすべてを決定づけるでしょう。それについて詳しくは触れませんが、3つの例を通じてその質問を提起して動画を終わりにしたいと思います。
最初は合成性で、昨年Natureに掲載された有名な論文で取り上げられました。基本的に、「between」や「double」、「色」などの概念を含む言語を作り、モデルがそれらの概念を正しい答えに合成できるかどうかをテストします。
これらの概念は、トレーニングデータには当然現れていないほど抽象的なものです。Natureの論文では元のGPT-4はこのチャレンジで大きく失敗し、O1 Proモードは近づきますが、まだ完全にはできません。9分間考えた後、「who」を「double」と正しく翻訳しましたが、「moreau」は完全には理解できていません。それが「between」を意味することを把握せず、対称性に関係すると考えています。
O3は合成性をマスターするでしょうか?まだテストできないのでその質問には答えられません。次は、もちろん私自身のベンチマークであるSimpleBenchです。この動画は元々12日間のまとめになるはずで、VO2について紹介し、GoogleのGemini 2.0 Flash Thinking Experimentalについて話すつもりでした。
今回の思考は、目に見える思考の連鎖で、O2 Proモードを思い起こさせます。それについて詳しくは触れませんが、Oシリーズのモデルから始めましょう。これまでの3回の実行では約25%のスコアを獲得しており、Flashのような小さなモデルとしては素晴らしいですが、彼ら自身のモデルGemini Experimental 1206ほどではありません。
このshipmasの特定の日については、O3を出したOpenAIのために、Googleを脇に置いています。
それでO3がSimpleBenchを粉砕できるかどうか、私が注目しているのは以下の点です。基本的に、空間的推論をマスターする必要があります。質問を自分で読むことができますが、私はO1 Proモードにこの視覚も提供しました。
質問を読まずに、このグローブが自転車から落ちたらどうなると思いますか?また、この視覚も提供したとしましょう。川の速さと共に。まあ、これらの詳細をありがとうと言うかもしれませんが、正直なところ、グローブは単に道路に落ちるだけです。O1はその可能性すら考えません。そして決して考えません。なぜなら、空間データは実際にトレーニングデータにはないからです。高度な社会的推論データもありません。
待ってください、それを明確にしましょう。もちろん、トレーニングデータに何が含まれているかは分かりません。少なくともO1には含まれていないと推測しているだけです。O3にもおそらく含まれていませんが、分かりません。O3のベースモデルはOrionなのでしょうか?それともGPT-4.5やGPT-5になるはずだったものでしょうか?OpenAIはベースモデルの変更について言及しませんでしたが、否定もしていません。
O3が物理学のようなものにとても優れているため、空間的推論のシナリオで何が起こるかを直感的に理解できるという議論もできるかもしれません。かもしれませんが、テストする必要があります。しかし、SimpleBenchと空間的推論全般について、私が自分に思い出させなければならないのは、これがモデルにとって基本的な制限とは思えないということです。
この動画の冒頭で言ったように、OpenAIはO3で問題解決への一般化可能なアプローチの範囲を根本的に示しました。言い換えれば、十分な空間的推論データと良い空間的推論ベンチマーク、そしてさらにスケールアップされた強化学習があれば、モデルはこれも得意になると思います。
そして正直なところ、空間的推論データの不足や、テキストベースの空間的推論データが不十分であるため、SimpleBenchのようなベンチマークがもう少し長く持ちこたえることができたとしても、Genesisのような物理シミュレータがあり、O3のようなモデルに現実的なシミュレーションの無限のトレーニングデータを与えることができます。O3やO4が答えに確信が持てない場合、シミュレーションを起動し、何が起こるかを確認して、答えを出力するのをほとんど想像できます。
最後に、ARC AGIはどうでしょうか?フランソワ・ショレが作成したこの特定のチャレンジがAGIの必要条件であっても十分条件ではないという動画を、それほど前ではありませんが作りました。O3がこのベンチマークを打ち負かすことが非常に重要な理由は、各例が新規のテストであり、つまり過去も現在も、意図的にトレーニングデータに含まれないように設計されたチャレンジだからです。したがって、それを打ち負かすには、少なくとも一定レベルの推論が必要です。
ちなみに、推論は実際にはスペクトラムだと思います。効率的な関数と複合関数を導出することとして定義します。したがって、LLMは常に何らかの形の推論を行ってきました。ただし、導出する関数はあまり効率的ではありません。より複雑な補間のようなものです。人間は物事をより早く見つける傾向があり、より多くのメタ的な経験則を持っています。
そしてこれらのよりメタ的な経験則により、より良く一般化し、以前見たことのないチャレンジをより効率的に解くことができます。だからこそ多くの人間は、入力1から出力1へ、入力2から出力2へと何が起こったかを見ることができるのです。GPT-4にはできませんでした。O1にも本当にはできませんでした。そしてこれらの特定の例については、O3にもできません。
はい、O3が正解できない、そんなに難しくない質問がまだあることに驚くかもしれません。それにもかかわらず、O3が最も効率的かどうかは分かりませんが、O3がある種の最も効率的なものであることは事実です。
ショレも言っています。これらの能力は新しい領域であり、真剣な科学的注目に値すると。その人物自身がそう言うのであれば、かなりの重みがあります。5万ドルの価値で88%を獲得します。そしてこのベンチマークの作者は次のように言いました。これは単なる総当たりではありません。はい、非常に高価ですが、これらの能力は新しい領域であり、真剣な科学的注目に値します。これはAIを適応させる上で重要なブレークスルーを表していると私たちは信じています。
O1がARCチャレンジをそれほどうまくできなかったとき、私は「まあ、いいけど、ARCもそれほどうまくできないんだ。かなりゴミだな」と考えていました。ゴミだとは思いませんでしたが、「まあ、まだまだ道のりは長いな」と考えていました。そして突然、OpenAIはただ...彼らはこれをバックポケットに持っていたのです。彼らのAIはただ「はい、O3、バーン」というような感じでした。
GoogleのQコンピュータでLLMを実行したらどうなるか想像してください。まあ、それは十分な大きさである必要があり...量子ビットは、その...私にはよく分かりませんが、管理するのに十分な耐障害性を持つ必要があります。でも見てみましょう。一度に1つのブレークスルーで十分です。これ以上は扱えません。次は「ああ、今度は耐障害性のある1000量子ビットシステムが来週登場します」なんてことになって、「ああ、なんてこと」となってしまいます。
効率的な関数の到達。つまり、かなり良く推論します。さて、ショレは過去にしばしば、彼の賢い友人たちはARC AGIで約98%のスコアを獲得したと言及していましたが、9月の最近の論文では、平均的な人間のパフォーマンスを徹底的に調査したところ、公開評価で64.2%だったことが示されました。
ショレ自身は2年半前に、5年以内に時間制限内で未見のARCタスクで50%以上を獲得する「純粋なトランスフォーマーベースのモデル」は存在しないだろうと予測しました。O3がAGIかどうかについての彼の評価に入る前に、いくつかの簡単な注意点を述べさせてください。
あるOpenAIの研究者は、87.5%を達成するのに16時間かかり、1時間あたり3.5%の増加率で解決に至ったことを認めました。そしてO3についての彼の公開声明からのもう1つの注意点。OpenAIは高性能コンピューティングのコストを公開しないよう要請しましたが、彼らはある意味で公開してしまい、計算量は低性能構成の約162倍だったと述べています。
低性能高効率の小売コストが2,000ドルだとすると、私の計算では87.5%を達成するのに約35万ドルかかります。もしあなたの仕事がARC AGIチャレンジを解くことで、年収が35万ドル未満なら、今のところは安全です。もちろん、コストが気になる場合は、常にO3があります。35万ドル。そのコストはすぐに下がると思います。O3 Miniは、O3のパフォーマンスに近づいています。
しかし、より真剣に彼は後の声明で、コストパフォーマンスは今後数ヶ月から数年でかなり劇的に改善される可能性が高いと述べました。そのため、これらの能力がかなり短い時間枠で人間の仕事と競争力を持つようになることを想定すべきです。チャレンジは、かなり短い時間枠で人間の仕事と競争力を持つようになることでした。
ああ、友達は何と言っていますか?もうレストランに着いていますか?教えてください。本当に申し訳ない気持ちです。モデルに推論させる方法でした。コストとレイテンシーは二の次でした。それらは後で、より多くのGPU、ムーアの法則、アルゴリズムの効率化によって下がることができます。これらのチャレンジを粉砕することが難しい部分でした。コストは長く続く障壁ではありません。
さて、ショレはO3が非常に簡単なタスクでまだ失敗すると述べています。そして先ほど示したARCチャレンジがその例だと主張するかもしれません。ブロックは基本的にそれらから突き出た線の方向に動きます。そして彼は、O3に対してまだ大きな課題となると考えているARC AGI 2ベンチマークを作成中で、高性能コンピューティングでもスコアを30%未満に減少させる可能性があると言及しています。
すでにテストしたかのようです。彼は続けて、一方で賢い人間はトレーニングなしで95%以上のスコアを獲得できるだろうと述べています。ただし、それは平均的な人間ではなく賢い人間であることに注意してください。また、O3が30%未満ですが、O4、O5はどうでしょうか?2025年末までにO6がリリースされたらどうなるでしょうか?
それが、ARC100万ドル賞の出資者であるマイク・ヌープが「私たちは何年も持続するAGIベンチマークを望んでいます。V2はそうはならないと予想しています」と言う理由かもしれません。そして暗号的に、「V3に注目を向け始めています。それは非常に異なるものになるでしょう」と述べています。
これが、AGIとは何かという重要な定義を設定します。平均的な人間がモデルを上回ることができるベンチマークが1つでもある限り、まだAGIではないのでしょうか?少なくとも今夜の時点でのショレの立場は、O3はAGIではないと考えているということです。まだAGIでないのはなぜでしょうか?まあ、彼が言っていることはある程度理解できますが、同時に、もしこれがAGIでないなら、ある時点で髪の毛を分けているような気がします。
単一のベンチマークだけが残っていて、他はすべて落ちているのに、まだAGIではないと言っているような状況ではないという、より公平な定義のように思えます。もちろん、これはO3が解けないけれど人間には簡単なベンチマークを作ることは難しいのかという疑問を残します。異なるモダリティを考慮すべきでしょうか?
特定のAI生成動画のリアリズムの欠如を見分けることができますか?どのようなベンチマークが許可され、許可されないのでしょうか?チャレンジを解く速さを考慮に入れるベンチマークについてはどうでしょうか?残念ながら、AGIかどうかの単純なイエス・ノーを求める人々に満足のいく答えを提供することはできません。
しかし、この達成の重要性に光を当てることはできます。繰り返しますが、特定のベンチマークについてではありません。作成するどのようなベンチマークにも、そして支払える規模にも、何度も何度も使用できるアプローチについてです。彼らはベンチマークという概念自体を打ち負かすことができることを示したようなものです。
はい、もちろん今夜OpenAIから発表された慎重な調整に関する論文を読みました。基本的に、彼らは同じ推論技術を使って、モデルが有害な要求を拒否しながら、無害なものを過度に拒否しないようにすることに優れるようにしました。O1の研究リーダーの一人であるノーム・ブラウンは、フロンティア数学の結果は実際に安全性への影響があると述べました。
彼は言いました。LLMはある面では愚かかもしれません。もちろん、私はまだO3をSimpleBenchでテストすることができません。O1さえもできません。彼らはまだAPIアクセスを与えてくれていません。彼は続けました。フロンティア数学のような評価の飽和は、AIが特定の領域で人間の最高知性を超えつつあることを示唆しています。
その最初の意味は、科学研究が広く加速される可能性があるということです。しかし彼は続けて、このことはAIの安全性に関するトピック、例えばスケーラブルな監督が、すぐに仮説的でなくなる可能性があることも意味すると述べました。これらの領域での研究は、この分野の優先事項でなければなりません。
スケーラブルな監督とは、とんでもなく簡単に言えば、本質的により賢くないモデルや人間が、より賢いモデルをどのように監督できるかという質問に答えることです。これはO3の共同クリエイターの一人が、本当に安全性に焦点を当て始める必要があると言っているのです。
おそらくそれが、ジョン・ホーマンのようなOpenAIの研究者が次のように言う時、より信頼できる理由なのでしょう。サムと私たち研究者がAGIが来ると言うとき、私たちはあなたにクールエイドを売ろうとしているわけでも、2,000ドルのサブスクリプションを売ろうとしているわけでも、次のラウンドに投資させようとしているわけでもありません。それは本当に来るのです。
今夜のO3についてどう考えたか、コメントで教えてください。個人的にはテストするのが待ちきれません。これはAIにとって大きな夜でした。この夜に私と一緒に参加してくれてありがとうございます。
私は圧倒されています。そして今夜夕食を共にする人はAI安全性の研究者なので、今夜は話し合うことがたくさんあるでしょう。そして一緒にO3安全性プレビューの入手を試みるか、O3への早期アクセスを得ることができるかもしれません。とにかく、どうなるか見てみましょう。また皆さんに最新情報をお伝えします。