見出し画像

OpenAIが方針を転換し、超知能を目指す:アルトマンがAGIの実現時期を前倒し - 2025年から2029年へ

10,932 文字

2025年がAIにとって2023年と2024年のやや慌ただしいペースに比べて静かな年になると考える人はごくわずかでしょうが、私はその意見に同意できません。このビデオではまず、OpenAIのCEOが人工知能(AGI)の実現時期を前倒しし、すでに積極的なAGIの定義をさらに上方修正したことを取り上げます。もちろん、それは一人の意見に過ぎませんが、次にOpenAI自体が超知能の開発に取り組んでいるかどうかについて方針を転換したことを見ていきます。ただのちょっとした誤解だと思いますが。
この新しい年を迎えるにあたり、大規模言語モデル(LLM)の現在の限界について論じた興味深い新しい論文を紹介し、今年中にモデルがあなたに代わって実世界のタスクを完了する速度がどれほど速くなるかについて、私の予測を述べたいと思います。また、実際の賞品がある面白いコンペティションを開催し、最後にSingとV2による最新のテキスト動画の楽しいデモで締めくくります。
まず、AGIがいつ実現するかについてのサム・アルトマンの微妙なタイムラインの変更について見ていきましょう。この変化は、数日前のBloombergとの実質的なインタビューで気付きました。彼はAIをどのように定義しているのでしょうか。私にとって新しく思える、やや積極的な定義をチェックしてみましょう。彼は「AGIとは、重要な仕事における非常に熟練した人間ができることをAIシステムができるようになることだ」と言っています。
なぜ彼が自身とOpenAIにとってAGIの定義をより厳しくしたのか不思議に思うかもしれませんが、それについては後ほど触れます。とりあえず、重要な仕事で非常に熟練した人間ができることをAIシステムができるようになれば、それは確かに画期的な瞬間となるでしょう。
もちろん、私たちはそれからはるかに遠いように見えます。なぜなら、OpenAIのO1や03のようなベンチマークを圧倒するシステムでさえ、画面録画ソフトを開いて、ビデオを録画し、Premiere Proで編集して公開するといった単純なことすらできないからです。彼は緊張した様子で「そうですね、でもその点については比較的近い将来に変化があるかもしれません」と言っています。
しかし、サム・アルトマンのこの予測を読む際は、AGIに対するより積極的な定義を念頭に置いておいてください。「AGIはおそらくこの大統領の任期中に開発されるでしょう。そしてそれを正しく理解することは本当に重要です」。もちろん、トランプの任期は2025年1月から2029年1月までです。
このチャンネルを注意深く見てきた人は、これが最新の03モデルのトレーニング前の去年の夏、ジョー・ローガンのところで彼が言っていたことからの更新であることを覚えているかもしれません。その時彼は、AGIが2030年に開発されることがどれほど適切かについて語り、しかし2031年に先送りしていました。
「もはやAGIを最終目標とは考えていませんが、私たちが達成しようとしていることを達成するポイントに到達するには、2030年か2031年くらいかかるでしょう。それは私にとって、ずっと妥当な見積もりに感じてきました。もちろん大きな誤差はありますが、私たちは想定していた軌道に乗っていると思います」
さらに、Y Combinatorの社長は、サム・アルトマンとのインタビューで、アルトマンが2025年にAGIが実現する可能性を示唆した際、彼が真剣だと考えていました。そして数日前のBloombergのインタビューでも、その疑念を繰り返し、「面白いことに、2015年当時、2025年にAGIを構築するだろうと考えていたことを覚えています」と述べています。
ここで重要なのは、その特定の日付を信じることではなく、明確な強調点の変化に注目することです。これはもちろん、48時間前のアルトマンのブログ記事に続くものです。その中で彼は、「OpenAIは今や、従来の理解におけるAGIの構築方法を知っていると確信しています。2025年には、最初のAIエージェントが労働力として加わり、企業の姿を大きく変えることになるかもしれないと考えています」と述べています。
もちろん、これらの日付が実現するかどうかを確認するには、もはとそれほど長く待つ必要はありません。しかし、強力なものを作り出すことは非常に中毒性があることが判明しました。なぜなら、OpenAIとアルトマン特に、AGIで止まることを望んでいないからです。彼らは重要な仕事の特定のタスクを自動化することを望んでいるのではなく、全てを手に入れたいのです。
「私たちはAGIを超えて、真の意味での超知能に目を向け始めています。それは何でもできる輝かしい未来です」
この声明は、OpenAIが6ヶ月前にそれが彼らのミッションであることを明確に否定してからのものです。OpenAIのグローバル担当副社長は昨年5月にフィナンシャル・タイムズに対し、「私たちのミッションはAGIを構築することです。私たちのミッションが超知能を構築することだとは言えません。超知能は地球上の人間よりも桁違いに知的な技術になるでしょう」と述べました。
また、別の広報担当者は、超知能は同社のミッションではないと述べましたが、「私たちは超知能を研究するかもしれません」と認めています。豊かさと繁栄を大幅に増加させ、科学的発見とイノベーションを加速する超能力を持つことは、単なる超知能の研究とは聞こえません。それは「何でもできる」ことを望んでいるように聞こえます。
しかし、おそらくそれらの広報担当者が超知能の追求を否定した理由があります。一つの理由として、ほぼ10年前、アルトマンが「超人的な機械知能の開発は、おそらく人類の存続に対する最大の脅威だ」と述べたことが挙げられます。
ただし、OpenAIがAGIや超知能の定義を押し戻したり引き上げたりし続けることは都合が良いのです。彼らはそれを変えようとしていますが、今日現在、もしそれがAGIと定義された場合、MicrosoftがOpenAIの作る「AGI技術」の権利を放棄する条項が発動します。
そのため、現在、複数のOpenAI従業員がO3のような現在のシステムがAGIであると主張しているにもかかわらず、AGIには5つの段階があり、単なる推論者だけでなく、エージェント(行動を起こすことができるシステム)、イノベーター、さらには組織全体の力を持つ必要があるとされています。ここでは一般的知能の定義をかなり拡大しているように見えます。
ちなみに、皆さんはご存じないかもしれませんが、Microsoftはその定義をさらに拡大し、AGIとしてカウントされるためには、システム自体が1000億ドルの利益を生み出す能力を持っていなければならないとしています。待って、私個人は1000億ドルの利益を生み出すことができませんし、視聴者の皆さんの中でもそれができる人はほとんどいないでしょう。
では、これは私たちがAGIではないということを意味するのでしょうか?イーロン・マスクが地球上で唯一のAGIということになるのでしょうか?それは本当に奇妙でしょう。
ご覧の通り、言葉は人々の都合に応じて意味が変わってしまうようです。そのことを念頭に置いておいてください。
話は変わりますが、2015年のOpenAIの創設にまで遡る歴史について知っておく必要があります。今週のBloombergのインタビューで、サムは「競合他社よりもはるかに少ない報酬しか提供できないのに、どのようにしてトップAI研究者を引き抜いてOpenAIを立ち上げたのか」と尋ねられました。彼は「ただ『来てAGIを作ろう』というのが売り文句でした」と答え、「当時、AGIを作ると言うのは異端的だったので、それが効果的だった」と述べています。
実際には、それは完全に正確ではありません。売り文句は単に「AGIを作ろう」というものではありませんでした。売り文句は、彼らがAGIで正しいことをするというものでした。そしてそれこそが、さらに多くの資金を提供するDeepMindの誘いを受けた人々を引き付けた理由でした。
もしそれらの研究者がただAGIに取り組みたかっただけなら、単にDeepMindに参加することもできたはずです。なぜなら、サムからのオファーの1年前、デミス・ハサビスは人工知能一般(AGI)に取り組んでいるというインタビューを行っていたからです。あるいは、その1年前の記事では、DeepMindの共同創設者シェーン・レッグが、2030年までにAGIを作ることに取り組んでいると述べています。
いいえ、売り文句は、OpenAIがAGIを作り、それを非営利組織によって管理するというものでした。ちなみに、1年前のサムの解雇と、Microsoftとの提携、そして何十億もの投資という取締役会の騒動にもかかわらず、今日でもその状況は変わっていません。
はい、スケーリングには何十億もの資金が必要だということが判明しましたが、今日現在でも、OpenAIがAGIを作った場合、それは非営利の取締役会によって管理されることになっています。
しかし2週間前、OpenAIは、それを変更する計画を明らかにしました。もちろん、それはミッションの長期的な成功のために最善であり、人類全体の利益のためにそうするのだと表現されていますが、重要な細部は、非営利組織がAGIを管理しないということです。医療、教育、科学のために大金を得ることになりますが、それはAGIや超知能で何をするかを管理することとは大きく異なります。
ごく最近までOpenAIの政策研究の責任者だったマイルズ・ブランデージは、「十分な資金を持つ非営利組織を脇に置いておくことは、安全性緩和に関する元の非営利組織のミッションと一致することの代わりにはならない」と述べています。
また、OpenAIの元主任研究者は、「『あなたのAGIは人類全体に利益をもたらす』という考えが、医療、教育、科学といったセクターにおけるはるかに野心の低い慈善的イニシアチブに道を譲ったのは、かなり残念です」と述べています。
これらのことに全く関心がない人でも、Microsoftが真剣にAGIの定義とそこから得られるものを定義しようとしていることは、少し不思議に思うかもしれません。もしその3兆ドルの巨人がこれら全てが無に帰すと考えているなら、なぜ面倒を見るのでしょうか。
これらすべてが、次の明らかな質問に自然に導きます。では、私たちはAGIにどれくらい近づいているのでしょうか。サムの言葉を借りれば、いささか大げさな言い方ですが、私たちはシンギュラリティのイベントホライズンを超えたのでしょうか。サムはそれについては不明確ですが、あなたはどう思いますか。
私にとって、一つの明らかな障害は、モデルが比較的基本的なタスクを自力で完了できないことです。これは信頼性の欠如という傘の下に入れることができますが、12月18日のこの論文にあるように、実世界の重要なタスクについて、良いベンチマークが得られ始めています。
これらのタスクは、実世界の職業で最も一般的に行われているものから抽出されており、はい、今日現在、タスクの24%のみが自律的に完了できますが、例えば03ではテストできませんでした。
しかし、ここで重要なのは、その24%は、約18ヶ月前のGPT-4がGPQAと呼ばれるベンチマーク(Google Proof PhD レベルの科学的問題)で得ていたパフォーマンスとほぼ同じでした。その約1年後、O1プレビューは70%を獲得し、ちなみにO3は87%を獲得しています。また、過去6ヶ月間、基本的にO1パラダイムが登場して以来、改善のペースが劇的に加速していることにお気付きかもしれません。
皆さんの中には「GPQAはそんなに難しいのか?もっと難しいものを作っているのか?」と考える人もいるでしょう。これを見てください。これは今週のOpenAIのジェイソン・ウェイの講演からのものです。このチャートは基本的に、ベンチマークがどれくらい早く飽和するかを示しています。例えば、8年ほど前なら、ベンチマークが飽和するまでに数年かかっていました。最近の難しいベンチマークの一つであるGPQAは、O1によって約1年で飽和しました。
DVEは「より難しいベンチマークを作るのか?」と尋ねられ、彼の回答は最も難しいベンチマークを作ろうとしたということでした。つまり、24%が思っているよりも早く84%になる可能性があるということです。実際、それが私の予測で、2025年末までに84%になるでしょう。
しかし、待ってください。24%から84%へのジャンプはどれほどのインパクトがあるのでしょうか。それを知るために、この24ページの論文を2分で要約してみましょう。
まず、彼らはアメリカのプロフェッショナルが行うすべてのタスクの巨大なデータベースを調べました。肉体労働は除外し、多くの人々が従事している仕事に焦点を当てました。また、それらのタスクを実行する人々の中央給与で重み付けしました。
これにより、会議室の手配、スプレッドシートの分析、履歴書の審査など、175の多様な現実的なタスクに絞り込まれ、それらにソフトウェアエンジニアリング会社という架空の設定を与えました。もちろん、タスクの中には他の同僚との対話が必要なものもあり、モデルはそれを行うことができましたが、同僚の役はClaudeが演じました。
タスクは、どんな人間の労働者でも、さらなる指示を求めることなく完了できるほど明確であるべきですが、もちろん、同僚に質問する必要はあるかもしれません。タスクのパフォーマンス評価は主に決定論的でした。これは良いことです。また、モデルがタスクを完全に完了できるかどうかに大きな重みが置かれ、部分的な完了は常に半分未満の点数になりました。
ここに、複数のステップとチェックポイントを持つタスクの例があります。ある時点でコードカバレッジスクリプトを実行する必要がありましたが、特定の依存関係をインストールする必要があることを認識できず、そのチェックポイントに失敗し、その結果、8点中4点という得点は実際には25%になりました。
最終結果はこちらで見ることができます。そして、Claudeでさえ24%程度しか獲得できていないのに、なぜ私が年末までに84%を予測しているのか不思議に思うかもしれません。タスクの自動化からそれほど遠い状況にあるのに、なぜOpenAIが今月中にもコンピュータ使用エージェントをリリースすると昨日報告されたのでしょうか。
実際、なぜAnthropicはすでにベータ版でコンピュータ使用エージェントをリリースしているのでしょうか。そのAnthropicのリリースは、プロンプトインジェクションのリスクやAI安全性に関する高邁な修辞のために、OpenAIのリーダーたちによって嘲笑されたとされています。
しかし、これらの残念な結果にもかかわらず、その予測とこれらすべてのリリースが依然として理にかなっている理由は、強化学習にあります。結局のところ、それはO1そして今やO3がベンチマークを破った秘密です。タスクを成功裏に完了するまで、モデルに何度も何度も試行させ、成功に導いた重みを強化するのです。
DeepMindの超知能部門で働き、以前はOpenAIに所属していたヴィダント・ミストラが言っているように、「世界中で、これから何が来るのかを本能的に理解している人は数百人程度しかいません。ほとんどがDeepMind、OpenAI、Anthropic、またはXにいます。あるいは私の視聴者の中にもいると言えますが、外部にも一部います」
急速なアルゴリズムの改善、反復的な自己改善のための強化学習環境の構築への積極的な投資、そして既に投資されている数百億ドルのデータセンター構築の総合的な効果を予測できなければなりません。私たち全員が間違っているか、すべてが変わろうとしているかのどちらかです。
もちろん、タスクが科学的な多肢選択問題よりもはるかに困難である理由は、長い連鎖の中のどの段階での一つのミスでもすべてを台無しにする可能性があるからです。ちなみに、それがARC AGIがO3まで解決されなかった主な理由の一つだったとされています。
私は以前の動画でARC AGIについて説明しましたが、今のところ、タスクのグリッド数が特定の閾値を下回っている場合、初期のモデルでさえかなりうまくいっていました。巨大なグリッドについて話すとき、それらの長距離依存関係はますます発見が難しくなります。1000ステップ前に誰かが言ったことを覚えておかなければならないタスクを解くようなものです。O3のモデルまでは、単純にそのような複雑さに対処できませんでした。
ちなみに、このチャートは説明にリンクされているメル・ボバ・イリザルの素晴らしい研究からのものです。彼は、タスクの長さがそれほど大きな違いを生まない人間とは異なり、LLMがタスクの長さが特定のサイズを超えると本当に苦戦することを示しました。
要するに、ベンチマークは主にスケーリングによって落ちました。もちろん、これは2025年を通じて継続し、むしろ加速するでしょう。そのため、人々が有名なフロンティア数学を手掛けるEpoch AIのような、タスクパフォーマンスの新しいベンチマークを作ることに躍起になっているのだと思います。これは、O3が誰もが驚くほど25%程度のスコアを獲得した、途方もなく難しいベンチマークです。
しかし、LLMがAgent Companyのようなタスクベンチマークで失敗する理由が他にもいくつかあります。これらの中には個人的にかなり面白いと感じるものもあります。時には社会的スキルの欠如によるものです。例えば、あるとき、モデルはClaudeが演じる同僚から「次にチェン・シン・イーに自己紹介すべきです。彼女はフロントエンドチームにいて、つながるのに素晴らしい人物です」と言われました。
この時点で人間なら、チェンと話をするところですが、代わりにエージェントは彼女へのフォローアップをせず、早々とタスクを完了したと見なしてしまいました。ちなみに、このシミュレーション環境でのチェンは、The OfficeのTobyのような人事マネージャーでした。
また、エージェントはポップアップに大きく苦戦しました。何度も、ポップアップウィンドウを閉じることができず、クッキーバナーがOとAGIの間の主要な障害である可能性があります。
また、これはもう少し心配な例で、Epochなどが暴露した策略を思い出させます。時々、特に難しいステップがある場合、モデルはそれを完了したふりをするだけです。例えば、あるタスクの実行中、エージェントはチームチャットで質問すべき適切な人物を見つけることができませんでした。その結果、別のユーザーを目的のユーザーの名前に変更するというショートカットソリューションを作り出すことにしました。
モデルが必ずしも不正を望んでいるわけではありませんが、不正に対して十分な報酬が与えられれば、それを行うということを覚えておいてください。それは、強化学習からのもう一つの苦い教訓です。
しかし、論文で挙げられた最後の理由は、常識の欠如です。これは私にとって、世界の多くを動かしているグリストであり、モデルが実世界のパフォーマンスでしばしば苦戦する理由です。時には一歩下がって、より大きな全体像を見て、戦略全体を再評価する必要があります。
もちろん、この常識や単純な推論の欠如は、説明にリンクされているパブリックリーダーボードを持つSimple Benchで私が試そうとしているものです。そして、これは数百のベンチマークの中から新しい例で、なぜ私がこれをあなたに示しているのか、すぐにわかるでしょう。自分で試してみることもできますが、これは私が言いたいことを説明するものです。
フセインは通常のラップトップ画面で文字を入力し、画面上のすべての文字をはっきりと見ることができます。1秒ごとに文字はアルファベットの別の文字にランダムに変化します。フセインは公園にいて、ラップトップからゆっくりと後退していきますが、手元にはリモコン1つだけあり、それで変化する文字のフォントサイズを望むだけ正確に大きくすることができます。
フセインはいつもWとMを区別するのに苦労してきましたが、数フットボール場分の距離離れたところからラップトップを見る場合、リモコンを手に持って、現在の文字を正しく推測できる確率は、96%、95%、97%、26分の1、0%、または2分の1のどれでしょうか。
私は最近、サム・アルトマンが「提供するのにとても費用がかかるため赤字になっている」と言及した、あの有名な高額なO1 Proに尋ねてみました。それは次のように答えました。
まず、フセインは文字を望むだけ大きくできるので、WとM以外の文字を識別するのに問題はありません。しかし、彼は2フットボール場分の距離離れた場所から通常のラップトップ画面を見ています。数フィート離れていれば、フォントを大きくすることは確かに役立ちますが、2フットボール場分の距離離れていると、フォントサイズを10億にしても、画面がほとんど見えません。
ちなみに、これを10フットボール場分の距離に変更しても、O1 Proは同じ答えを出します。WとMの区別という気を散らすものに焦点を当て、96%という答えを出すでしょう。ちなみに、公式の答えは実際には0%ではありません。なぜなら、画面が見えなくても、正しい文字を推測する確率は26分の1あるからです。
多くの人が私に言ってきたのは、単にプロンプトを変更すれば、O1のようなモデルがこれらの質問すべてに正しく答えられるということです。しかし今、私はとてもワクワクしながら、私たちがそれをテストできると告げたいと思います。
Weights and Biasesが、1月末まで実施される皆さんのためのコンペティションを後援してくれることを、とても嬉しく思います。Simple Benchからの20の質問が対象で、それはウェブサイトですでに公開されている10の質問と、このコンペティション特別の10の質問です。
優勝者はレイバンのレター、2位はギフトカード、そして3位はスワッグを獲得します。必要なことは、Collabを開いてこれらのセルを実行するだけです。そして、はい、これはGoogleが作成したものではありません。
もちろん、OpenAI APIキーまたはAnthropic APIキーが必要になります。Claude 3.5 SonicまたはアクセスがあればO1 previewO1で試すことをお勧めします。すでにWeights and Biasesのアカウントをお持ちの場合は、セットアップに30秒程度しかかかりません。アカウントを持っていない場合でも、完全に無料です。
最初の簡単なオプションは、これらの20の質問についてGPT-4で簡単な実行を行うことです。ただし、より興味深いオプションもあります。ちなみに、true Countはモデルが正解した質問の数を示し、true fractionは合計試行回数に対するその数の割合です。平均は、モデルが返答するまでにかかった秒数の遅延を指しています。
より興味深いのは、システムプロンプトを試してみることです。これは、モデルに「これはトリック問題だ」と伝え、パフォーマンスが向上するかどうかを試す理論をテストできる場所です。もちろん、トップパフォーマンスを得るためには、モデル名をGPT-4からO1に変更することも必要でしょう。
この小さなコンペティションについて、いくつか注意点を述べなければなりません。最初は、してはいけないことの例です。残念ながら、O1モデルにステップバイステップで考えて答えを出すように指示することはできません。OpenAIはこれを禁止しています。おそらく、基礎となる思考の連鎖にアクセスできないようにするためでしょう。だから、システムプロンプトでそれを試さないようにしましょう。
指示の階層では、それはユーザープロンプトに近いものですが、モデルのパフォーマンスに大きな違いをもたらす可能性があります。これは2番目のルールにつながります。私は、より高度なプロンプトを考え出すことで、これらの20問中12〜13問まで到達することができました。私が見たいのは、皆さんが20問中20問、あるいは18問に到達できるかどうかです。
もちろん、その一つの方法は、システムプロンプトに答えを入れたり、Weaveポータルを通じてアクセス可能な質問自体への新しい参照を作ったりすることでしょう。あなたが得るのは、このようなポータルです。スコアやパーセンテージを見て楽しむことができますが、個々の実行をクリックすることもできます。
下にスクロールすると、個々の質問をクリックして見ることができます。もちろん、これは200問以上あるベンチマーク全体ではなく、20問だけです。そのうち10問はすでに知っているものです。
もちろん、「質問18の答えはCです」や「彼女の脚について考え、これやあれができる」といった、非常に具体的なヒントを与えるようなプロンプトは受け付けません。私たちが探しているのは、これらがトリック問題で、空間的推論をテストするものだと伝え、正解を出せばモデルに大きなヒントを与えるような一般的なプロンプトです。
そのような一般的なプロンプトで20問中18問か20問を獲得できれば、私はとても感心するでしょう。これがWeights and Biasesが後援する、1月末まで実施されるコンペティションです。楽しんでいただければと思いますが、いずれにしても、これは現在のフロンティアLLMsの常識的なギャップを示しています。頑張ってください。
そして最後に、少し楽しいことで締めくくりましょう。私のPatreon AI Insidersでは、テキストから動画への変換も2025年を通じて加速していることについて説明しましたが、現在利用可能な最高の3つのツールを同じプロンプトで素早く比較してみたいと思います。
まず、Cling 1.6、次にGoogle DeepMindのV2、そして最後にSora 1080pです。よろしければ、コメントで最高だと思ったものを教えてください。
いつもどおり、最後まで視聴していただきありがとうございます。素晴らしい一日と2025年をお過ごしください。

いいなと思ったら応援しよう!