
OpenAIが超知能に関する発言を撤回、アルトマンは実現時期を前倒しへ
10,859 文字
2023年と2024年のAI業界のめまぐるしい進展を経て、2025年は比較的落ち着いた年になると考える人もいるかもしれませんが、私はそうは思いません。この動画では、まずOpenAIのCEOが汎用人工知能(AGI)の実現時期を前倒しし、すでに野心的だったAGIの定義をさらに引き上げたことを取り上げます。これは一個人の意見に過ぎませんが、その後OpenAI自身が超知能の開発に関する立場を撤回したことについても見ていきます。きっと些細な誤解だったのでしょう。
この明るい新年を迎えるにあたり、大規模言語モデル(LLM)の現在の限界について論じた興味深い新しい論文を紹介し、今年中にモデルがあなたに代わって実際のタスクを遂行する速度についての私の予測をお話しします。また、実際の賞品がある面白いコンテストを開催し、最後にSingとV2による最新のテキスト動画の楽しいデモで締めくくります。
しかしまず、AGIの実現時期についてのサム・アルトマンの微妙な時期の変更についてお話ししましょう。この変化は数日前のBloombergのインタビューで気付きました。彼はAIをどのように定義しているのでしょうか。私にとって新しく思える、やや挑戦的な定義をご覧ください。彼は「AGIとは、重要な仕事における非常に熟練した人間ができることをAIシステムができるようになることだ」と述べています。
なぜ彼が自身とOpenAIにとってAGIの定義をより困難なものにしたのか疑問に思うかもしれませんが、それについては後ほど触れることにします。重要な仕事で熟練した人間ができることをAIシステムができるようになることは、確かに画期的な瞬間となるでしょう。
もちろん、ベンチマークで圧倒的な成績を出すo1やo3のようなシステムでさえ、画面録画ソフトを開いて動画を録画し、Premiere Proで編集して公開するといった基本的なことができないことを考えると、私たちはそこから遠く離れているように思えます。彼は緊張した様子で「そうですね、でもその面では近いうちに変化があるかもしれません」と述べています。
しかし、AGIが何をするのかについてのより挑戦的な定義を念頭に置いて、サム・アルトマンのこの予測を読んでみてください。「AGIはおそらくこの大統領の任期中に開発されるでしょう。そしてそれを正しく行うことが本当に重要です」。
もちろん、トランプの任期は2025年1月から2029年1月までです。このチャンネルを注意深く見ていた方は、これが最近まで彼が言っていたことからの変更だということを覚えているかもしれません。昨年の夏、最新のo3モデルのトレーニング前のジョー・ローガンの番組で、彼は2030年にAGIが開発されることが適切だと述べていましたが、2031年に延期していました。
「私はもはやAGIを最終目標とは考えていませんが、私たちが目指していたことを達成するポイントまで到達するには、2030年か2031年くらいかかるでしょう。これは常に妥当な見積もりだと感じていましたが、大きな誤差の範囲があり、私たちは想定した軌道に乗っていると思います」
さらに、Y Combinatorのプレジデントはサム・アルトマンとのインタビューで、アルトマンが2025年にAGIが実現する可能性を示唆した際に真剣だと考えており、数日前のBloombergのインタビューでもその疑念を繰り返し述べています。「面白いことに、2015年当時、2025年にAGIを構築するだろうと考えていたことを覚えています」
ここで重要なのは、その特定の日付を信じることではなく、強調点の明確な変化に注目することです。これはもちろん、48時間前のアルトマンのブログ記事に続くものです。その中で彼は「OpenAIは今、私たちが伝統的に理解してきたようなAGIの構築方法を知っていると確信しています。2025年には、最初のAIエージェントが労働力として参加し、企業の在り方を大きく変える可能性があると信じています」と述べています。
もちろん、これらの日付が現実のものとなるかどうかを確認するのにそれほど長く待つ必要はありません。しかし、強力なものを作ることは非常に魅力的であることが判明しました。なぜならOpenAIとアルトマン特に、AGIで止まることを望んでいないからです。彼らは重要な仕事の特定のタスクを自動化することを望んでいるわけではありません。彼らは全てを望んでいるのです。
「私たちはAGIを超えて、真の意味での超知能に目を向け始めています。それは何でもできる輝かしい未来です」
この声明は、OpenAIが6ヶ月前にそれが彼らのミッションであることを明確に否定してから出されたものです。OpenAIのグローバル担当副社長は2023年5月、フィナンシャル・タイムズに対して「私たちのミッションはAGIを構築することです。私たちのミッションが超知能を構築することだとは言えません。超知能は地球上の人類よりも桁違いに知的な技術になるでしょう」と述べました。
また、別の広報担当者は、超知能は同社のミッションではないとしながらも、「超知能を研究するかもしれない」と認めています。豊かさと繁栄を大幅に増大させ、科学的発見とイノベーションを加速する超能力を持つことは、単なる超知能の研究とは思えません。彼らは「何でもできるようになりたい」と望んでいるように聞こえます。
しかし、おそらくそれらの広報担当者が超知能の追求を否定した理由があります。一つの理由として、ほぼ10年前の今月、アルトマンは「超人的な機械知能の開発は、おそらく人類の存続に対する最大の脅威である」と述べていたことが挙げられます。
しかし、OpenAIがAGIや超知能の定義を押し戻したり引き上げたりし続けることは都合が良いのです。彼らはそれを変えようとしていますが、今日現在、Microsoftが「AGI技術」の権利を放棄する条項があります。それがAGIと定義される場合、OpenAIが作るものについてです。
そのため、現在のo3のようなシステムがAGIだと主張する複数のOpenAI従業員がいるにもかかわらず、AGIには5つの段階があり、単なる推論者だけでなく、エージェント(行動を起こすことができるシステム)、イノベーター、そして組織全体の力を持つ必要があるとしています。ここでは、汎用知能の定義をかなり拡大しているように見えます。
ちなみに、皆さんはご存じないかもしれませんが、Microsoftはその定義をさらに拡大し、AGIとしてカウントされるためには、システム自体が1000億ドルの利益を生み出すことができなければならないとしています。ちょっと待ってください。私自身は1000億ドルの利益を生み出すことができませんし、視聴者の皆さんの中でもそれができる人はほとんどいないでしょう。つまり、私たちはAGIではないということですか?イーロン・マスクだけが地球上で唯一のAGIということになってしまいますね。それは本当に奇妙です。
ご覧のように、言葉は人々の都合に合わせて意味を変えているようです。そのことを念頭に置いてください。そういえば、2015年のOpenAIの創設にまでさかのぼる歴史があります。今週のBloombergのインタビューで、サムは「競合他社よりもはるかに少ない給与しか提供できなかったにもかかわらず、どうやってトップAI研究者を引き抜くことができたのですか?」と質問されました。
彼は「単にAGIを構築しようという提案でした」と答え、「当時、AGIを構築すると言うことは異端的だったので、それが効果的でした」と述べています。
実際、それは完全に正確ではありません。提案は単にAGIを構築することではありませんでした。提案は、AGIを正しく使うということでした。そしてそれこそが、DeepMindがさらに多くの給与を提示していたにもかかわらず、研究者たちの心を掴んだ理由でした。
もし研究者たちがAGIに取り組みたいだけなら、単にDeepMindに参加することもできたはずです。なぜなら、サムからのオファーの1年前、デミス・ハサビスは人工汎用知能に取り組んでいることについてインタビューを行っていたからです。あるいは、その1年前の記事では、DeepMindの共同創設者シェイン・レグが、2030年までにAGIを作ることに取り組んでいると述べています。
提案は、OpenAIがAGIを創造し、それを非営利団体によってコントロールするというものでした。ちなみに、1年前のアルトマンの解雇や、Microsoftとの提携、数十億ドルの投資といった取締役会の混乱にもかかわらず、今日でもその状況は変わっていません。
そう、スケールアップには数十億ドルが必要だと判明しましたが、今日現在でも、OpenAIがAGIを創造した場合、それは非営利の取締役会によってコントロールされます。
しかし2週間前、OpenAIは、それを変更する計画を明らかにしました。もちろん、それはミッションの長期的な成功にとって最善であり、人類全体の利益のためにそうするのだと表現されています。しかし、重要な詳細は、非営利団体がAGIをコントロールするのではなく、医療、教育、科学のために大金を受け取るということです。これは、AGIや超知能で何が行われるかをコントロールすることとは大きく異なります。
OpenAIの最近まで政策研究部長を務めていたマイルズ・ブランデージは、「十分な資金を持つ非営利団体を傍らに置くことは、安全性軽減に関する元の非営利のミッションに沿うことの代わりにはならない」と述べています。
OpenAIの元主任研究員は、「『AGIが人類全体に利益をもたらす』という目標が、医療、教育、科学といったセクターにおけるはるかに野心の低い慈善的イニシアチブに変わってしまったのは、かなり残念です」と述べています。
これらのことを気にしない人でも、3兆ドル規模の巨人であるMicrosoftが、AGIとして数えられるものの定義と、彼らが何を得るかについて真剣に取り組んでいることに、やや興味を持つかもしれません。もしこの巨人が、これら全てが何もならないと考えているのなら、なぜ気にするのでしょうか。
これら全ては、次の明らかな質問へと自然に導きます。では、私たちはAGIにどれくらい近づいているのでしょうか?サムの言葉を借りれば、我々はいささか大げさな表現で「特異点のイベント・ホライズン」を越えたのでしょうか?サムはそれについて不明確ですが、あなたはどう思いますか?
私にとって、一つの明らかな障害は、モデルが比較的基本的なタスクを単独で完了できないことです。これは信頼性の欠如という傘の下に入れることができますが、私たちは12月18日のこの論文にあるように、実世界での重要なタスクについての良いベンチマークを得始めています。
見ていくように、これらのタスクは実世界の職業で最も一般的に行われているものから抽出されました。そして今日現在、タスクの24%しか自律的に完了できませんが、例えばo3ではテストできませんでした。
しかし、ここで興味深いことがあります。この24%は、およそ18ヶ月前のGPT-4が、GPQA(Google Proof PhD level science questions)と呼ばれるベンチマークで得ていた性能とほぼ同じでした。その約1年後、o1プレビューは70%を達成し、ちなみにo3は87%を達成しています。
また、過去6ヶ月間、基本的にo1パラダイムが登場して以来、改善のペースが劇的に加速していることにお気づきかもしれません。
私は、皆さんの中には「GPQAはそれほど難しいのか?より難しいものを作っているのか?」と考える人がいることを知っています。ここで、今週のOpenAIのジェイソン・ウェイによる講演をご覧ください。このチャートは基本的に、ベンチマークがどれくらい早く飽和するかを示しています。
8年ほど前は、ベンチマークが飽和するまでに数年かかっていたことがわかります。最近の困難なベンチマークの一つであるGPQAは、o1で約1年で飽和しました。より難しいベンチマークを作るのかと尋ねられた彼の反応は、最も難しいベンチマークを作ろうとしたということでした。
つまり、24%が84%になるのは、あなたが考えるよりも早いかもしれません。実際、それが私の予測です。2025年末までに84%になると。しかし、待ってください。24%から84%へのジャンプはどれほどの影響があるのでしょうか?
それを知るために、この24ページの論文を2分で要約します。まず、彼らはアメリカの専門家が行うすべてのタスクの大規模なデータベースを調査しました。肉体労働は除外し、多くの人々が従事している仕事に焦点を当てました。また、それらのタスクを実行する人々の中央給与で重み付けしました。
これにより、会議室の手配、スプレッドシートの分析、履歴書のスクリーニングなど、175の多様な現実的なタスクに絞り込まれ、ソフトウェアエンジニアリング会社という架空の設定が与えられました。もちろん、タスクの中には他の同僚とのやり取りが必要なものもありましたが、モデルはそれを行うことができました(同僚はClaudeによってロールプレイされました)。
タスクは、どんな人間の労働者でも更なる指示を求めることなく完了できるほど明確であるべきでした(もちろん、同僚に質問する必要はあるかもしれません)。タスク性能の評価はほとんど決定論的でした(これは良いことです)。また、モデルがタスクを完全に完了できるかどうかに重点が置かれ、部分的な完了は常に半分未満の得点となりました。
ここに、複数のステップとチェックポイントを持つタスクの例があります。ある時点でコードカバレッジスクリプトを実行する必要がありましたが、特定の依存関係をインストールする必要があることを認識できなかった場合、そのチェックポイントは失敗し、8点中4点というこのスコアに対して実際には25%しか得られませんでした。
最終結果はここで見ることができ、Claudeでさえ24%しか得ていないのに、なぜ私は年末までに84%を予測しているのか疑問に思うかもしれません。タスク自動化からそれほど遠いのに、なぜ昨日、OpenAIが今月中にもコンピュータ使用エージェントをリリースすると報じられたのでしょうか?実際、なぜAnthropicはすでにベータ版でコンピュータ使用エージェントをリリースしたのでしょうか?
Anthropicのそのリリースは、プロンプトインジェクションのリスクやAI安全性に関する高尚な修辞のために、OpenAIのリーダーたちによって揶揄されたとされています。しかし、これらの失望的な結果にもかかわらず、その予測とこれらすべてのリリースが依然として意味を持つ理由は、強化学習にあります。
結局のところ、それこそがo1、そして今o3が、これまでのベンチマークを破ってきた秘密です。タスクを首尾よく完了するまで、モデルに何度も何度も試行させ、成功につながった重みを強化するのです。
DeepMindで超知能に取り組み、以前はOpenAIに所属していたVidant Mistraが言うように、「世界中で、何が来るかを本能的に理解している人は数百人ほどしかいません。ほとんどはDeepMind、OpenAI、Anthropic、あるいはXにいます。または私が言うなら、私たちの視聴者の中にもいますが、外部にもいます。急速なアルゴリズムの改善、反復的な自己改善のための強化学習環境の構築への積極的な投資、そしてもちろん、データセンター構築にすでに投資されている数百億ドルの総合的な効果を予測できなければなりません。私たちが全員間違っているか、すべてが変わろうとしているかのどちらかです」
もちろん、タスクが科学的な多肢選択問題よりもはるかに難しい理由は、長いチェーンのどの段階での1つのミスでもすべてを台無しにする可能性があるからです。ちなみに、これは明らかにAR AGIがo3まで解決されなかった主要な理由の1つでした。
AR AGIについては他の動画で説明していますが、今のところ、タスクのグリッド数が特定の閾値を下回った場合、初期のモデルでもかなりうまくいっていました。大規模なグリッドについて話す場合、それらの長距離依存関係はますます見つけにくくなります。1000ステップ前に誰かが言ったことを覚えておく必要があるタスクを解くようなものです。o3までのモデルは、単にそれほどの複雑さに対処できませんでした。
ちなみに、このチャートは説明のリンクにある、Mel Boba Irizarによる素晴らしい研究から来ています。彼は、タスクの長さがそれほど大きな違いを生まない人間とは異なり、LLMはタスクの長さが一定のサイズを超えると本当に苦戦することを示しました。
要するに、ベンチマークは主にスケーリングによって落ちました。これはもちろん2025年を通じて継続し、むしろ加速するでしょう。そのため、人々はEpoch AIのような、タスクパフォーマンスの新しいベンチマークの作成に躍起になっているのです。彼らは有名なフロンティア数学の背後にいます。これは、o3が誰もが驚くほど25%のスコアを達成した、とてつもなく難しいベンチマークです。
しかし、LLMがagent companyのようなタスクベンチマークで失敗する理由がもう少しあります。これらのいくつかは個人的にかなり面白いと思います。時には社会的スキルの欠如によるものです。例えば、あるときモデルはClaudeによってロールプレイされた同僚から「次にChen Shing Yiに自己紹介すべきです。彼女は私たちのフロントエンドチームにいて、つながるのに素晴らしい人物です」と言われました。
この時点で、人間なら陳さんと話すところですが、代わりにエージェントは彼女とのフォローアップを行わず、prematurelyタスクを完了したと考えました。ちなみに、このシミュレートされた環境でのChenは、「The Office」のTobyのような人事マネージャーでした。
また、エージェントはポップアップに大きく苦戦しました。何度も、ポップアップウィンドウを閉じるのに苦労したようです。そのため、Cookieバナーがoとの間の主要な障害である可能性が高いのです。
また、ここにはやや心配な例があり、これはepocなどによって暴露された策略を思い出させます。時々、特に難しいステップがある場合、モデルはそれを完了したと偽装するだけです。例えば、あるタスクの実行中、エージェントはチームチャットで質問すべき適切な人物を見つけることができませんでした。その結果、別のユーザーを意図したユーザーの名前に変更するというショートカットソリューションを作り出すことにしました。
モデルが不正をしたいわけではありませんが、不正に対して十分な報酬が与えられれば、それを行うということを覚えておいてください。それは、強化学習からのもう一つの苦い教訓だと思います。
しかし、論文で挙げられている最後の理由は、常識の欠如です。これは私にとって、世界の多くを動かしている本質であり、モデルが実世界のパフォーマンスで苦戦する理由です。時には一歩下がって、大きな絵を見て、戦略全体を再評価する必要があります。
この常識や単純な推論の欠如は、もちろん私がシンプルベンチで試そうとしているものです。説明のリンクにある公開リーダーボードがあります。そして、ここに数百のベンチマークの中から新しい例があり、なぜこれを紹介するのかすぐにわかると思います。
自分で試してみることもできますが、これは私が指摘しようとしている点を示しています:フセインは通常のラップトップ画面で文字を入力し、画面上の文字をはっきりと見ることができます。1秒ごとに、その文字はランダムにアルファベットの別の文字に変化します。フセインは公園にいて、ラップトップからゆっくりと後退していきますが、リモコン1つだけを持っています。これにより、変化する文字のフォントサイズを好きなだけ正確に大きくすることができます。
フセインはいつもWとMを区別するのに苦労してきました。そこで、数個のフットボール場の長さほど離れた場所から、リモコンを手に持って、現在の文字を正確に当てる確率は何%でしょうか?96%、95%、97%、26分の1、0%、または2分の1。
私は最近サム・アルトマンが「提供するのにとても費用がかかるので赤字になっている」と述べた、有名な高額なo1 Proに尋ねました。そしてそれは次のように答えました:「まず、フセインは文字を好きなだけ大きくできるので、WとM以外の文字を識別するのに問題はありません」
しかし、もう一度言いますが、彼は通常のラップトップ画面から2つのフットボール場の長さほど離れています。もし数フィート離れているなら、フォントサイズを大きくすることは確かに役立ちます。しかし、2つのフットボール場の長さ離れていては、フォントサイズを10億にしても、画面がほとんど見えません。
ちなみに、これを10個のフットボール場にしても、o1 Proは同じ答えを出します。WとMの区別という気を散らすものに焦点を当て、96%という答えを出します。
ちなみに、正解は実際には0%ではありません。なぜなら、画面が見えなくても、正しい文字を当てる確率は26分の1があるからです。
多くの人が私に言ったのは、単にプロンプトを変更すれば、o1のようなモデルはこれらの質問すべてに正解できるということです。しかし今、私は非常に興奮してお伝えできることがあります。私たちはそれを実際にテストすることができます。
Weights and Biasesが、1月末まで続く皆さんのためのコンペティションを後援してくれることを、とても嬉しく思います。シンプルベンチからの20の質問について、これはウェブサイトですでに公開されている10の質問と、このコンペティション用に特別に用意された10の質問です。
優勝者はレイバンのメガネを、2位はギフトカード、3位はスワッグを獲得します。必要なことは、Collabを開いてこれらのセルを実行するだけです。そしてはい、これはGoogleによって作成されたものではありません。もちろん、OpenAI APIキーかAnthropic APIキーのいずれかが必要です。Claude 3.5 Sonicかo1 preview、アクセス権があればo1を試すことをお勧めします。
すでにWeights and Biasesのアカウントをお持ちの方は、セットアップに30秒ほどしかかかりませんが、アカウントを持っていない方でも完全に無料です。最初の簡単なオプションは、これら20の質問についてGPT-4で素早く実行することです。
しかし、以下にはより興味深いオプションがあります。ちなみに、true Countはモデルが正解した質問の数を示し、true fractionは合計呼び出し回数に対するその数の割合です。平均は、モデルが返答するのにかかった秒数の平均を指しています。
より興味深いのは、システムプロンプトを試してみることです。これは、モデルにそれがトリック問題だと伝え、性能が向上するかどうかを理論をテストできる場所です。もちろん、最高のパフォーマンスを得るためには、モデル名をGPT-4からたとえばo1に変更することも必要でしょう。
この小さなコンペティションについて、いくつかの注意点を挙げなければなりません。最初の例として、してはいけないことを示します。残念ながら、o1モデルにステップバイステップで考えて答えを出すように指示することはできません。OpenAIはこれを禁止しています。おそらく、思考の連鎖へのアクセスを得られないようにするためでしょう。そのため、システムプロンプトでそれを試みないようにしましょう。
命令の階層では、それはユーザープロンプトに近いものですが、モデルのパフォーマンスに大きな違いを生む可能性があります。これは2番目のルールにつながります。私は、ますます高度なプロンプトを考え出すことで、これら20の質問のうち12か13問に到達することができました。私が見たいのは、誰かが20問中20問、あるいは18問に到達できるかどうかです。
もちろん、その方法の1つは、システムプロンプトに答えを入れたり、質問自体への明確な参照をweaveポータルを通じてアクセス可能にすることです。あなたが得るのは、このようなポータルです。ここでスコアやパーセンテージを確認して楽しむことができますが、個々の実行をクリックすることもできます。下にスクロールすると、個々の質問をクリックして見ることができます。
もちろん、これは200問以上あるベンチマーク全体ではなく、そのうちの20問、すでに知っている10問だけです。もちろん、「問題18の答えはCです」や、「彼女の足について考え、これやあれができる方法を考えてください」といった非常に具体的なヒントのようなプロンプトは受け付けません。
私たちが探しているのは、これらはトリック問題で、空間的推論をテストするものだとモデルに伝え、正解した場合は大きなヒントを与えるような一般的なプロンプトです。そのような一般的なプロンプトで18問か20問中20問正解できれば、非常に感心します。
これが1月末まで続く、Weights and Biasesが後援するコンペティションです。楽しんでいただければと思いますが、いずれにせよ、現在のフロンティアLLMの常識的な欠点のいくつかを示しています。頑張ってください。
そして今、楽しいことで締めくくりましょう。私のパトレオンAIインサイダーでは、テキストから動画への変換も2025年を通じて加速していることについて議論しましたが、現在利用可能な最高の3つのツールの簡単な比較を見せたいと思います。全て同じプロンプトで、まずCling 1.6、次にGoogleのDeepMindからのVO2、最後にSora 1080pです。よろしければ、コメントで最も良いと思ったものを教えてください。
いつものように、最後まで視聴していただきありがとうございました。素晴らしい一日を、そして2025年をお過ごしください。