
加速は依然として加速している:なぜすべてのAI予測が控えめすぎたのか(私の予測さえも)
9,782 文字
皆さん、こんにちは。このビデオにとてもワクワクしております。昨年、いくつかのビデオで、曲線が平坦になるのか、つまりシグモイド曲線の高原に達するのか、それともシンギュラリティが起こるのかについて疑問を呈したことを覚えている方もいらっしゃるかと思います。改めて断言いたしますが、その曲線は依然として急勾配になっています。どれほど続くのかについては、このビデオでは詳しく触れませんが、とりあえず、現時点では曲線はなお急勾配になっているのです。
そして、加速度自体も依然として加速しています。また、背景で何か音が聞こえるかもしれませんが、私の犬たちが骨を噛んでいる音ですので、ご了承ください。
さて、このようなグラフがRedditやTwitter、LinkedInなどでよく見かけられるかもしれません。実際、こういったグラフはたくさん存在しますが、私がここでお見せするのは一例に過ぎません。ただし、ここでご覧いただいているのは、単なる幾何学的なレベルでのベンチマークの改善だけでなく、しかも一つのベンチマークではなく、このグラフには五つのベンチマークが取り上げられており、さらにこれらが過去数ヶ月間で急激に向上しているという点です。これこそが「加速は依然として加速している」という私の意味するところです。
別の見方をすると、現在のパラダイムから全ての可能性を引き出しきれていないということです。現在のパラダイムは、我々を単なる汎用人工知能(AGI)だけでなく、もしかするとスーパーインテリジェンスにまで導いてくれるように思われます。
私にとってこれは特に驚くべきことではありません。というのも、私が2009年にニューラルネットワークに初めて触れたとき(もうずいぶん前の話ですが)、自然界や進化、生物学がニューラルネットワークを用いて知能を実現しているのならば、それと人工ニューラルネットワークとの間に大きな違いはないはずだという単純な論理を立てたからです。もちろん、これは大きく単純化しすぎた考えですが、その論理は今も有効なように思えます。
また、一部の方々がジェフリー・ヒントン氏の発言を引用して、「ニューラルシンボリック派の人々は結局問題を解決できなかった」といった主張をするのを耳にしましたが、私はその主張を正当な議論だとは思いません。大規模言語モデル(LLM)は、ニューラルでありシンボリックでもあるという点が、まさにニューラルシンボリックAIの姿そのものです。それは、単なるTransformerを用いたディープラーニング、すなわち深層ニューラルネットワークの大規模言語モデルにすぎません。要するに、ここでの論点はほとんど語義の問題に過ぎないということです。では、次に進みましょう。
加速は依然として加速しているのです。カーソルを起動させますね。すみません、起動しました。これでマウスがどこにあるかご覧いただけます。さて、第一に「データの壁」についてですが、皆さんもご存じのように、アンドレ・カルパティ氏やイリア・セルク氏のような方々のツイートや、彼らが行ったプレゼンテーションでは、「インターネットは一つしかなく、そのインターネットはすでにほぼ使い尽くされている」といった主張がなされていました。しかし、重要なのは、入力すればゴミが出る、すなわち「ゴミがゴミ」という原則が依然として有効であり、実際、インターネット上のほとんどの情報はゴミだという点です。現状、我々が直面しているのは、合成データを生成できるほど賢いモデルであり、そのモデルは「ここには膨大な雑多な情報があるが、これを実際に役立つ情報へと蒸留できる」という能力を持っているのです。昨年、一部ではOpenAIが時間の大部分を新たなデータを合成する作業に費やしていたという噂がありましたが、実際に大きなコストがかかったのは、そのために多くのトークンを推論に使い、インターネット上の膨大なデータ(ほとんどがゴミであるデータ)の信号対雑音比を改善し、より圧縮された新たなデータ、完全に合成されたデータセットを作り出そうとしたからだと、私自身は推測しています。おそらく、依然としてインターネット上のデータも部分的に使われているでしょうが、実際に役立つ、まるで「世界の仕組み」を記述した教科書のようなデータがより大きな割合を占めるのだと思われます。
また、これらの推論モデルは、訓練時のデータ分布の枠を超えて動作しているように見受けられます。つまり、第一原理に基づく推論を学び、それを一般化することで、全く新しい問題にも対処できるようになっているのです。多くの方がまだこの点について語っていないかもしれません。もしかすると、私が単に作り話をしているのかもしれませんが、過去にこのような推論を行った際、ほとんどの場合正しかったという経験から、今後、ベンチマークや論文で「これらのモデルは第一原理から一般化している」と発表されても不思議ではありません。振り返ってみると、多くの人がこれを「エマージェンス」と呼び、「推論が突然出現した」と言っていますが、実際にはGPT-2の段階でも何らかの推論能力は存在しており、単に見抜くのが難しかっただけで、後になって「あれは最初からあった」と気付くのです。
この話題を持ち出す理由は、私自身、モデルが第一原理に基づいて推論し、訓練分布を超えて一般化する際の振る舞いを見る方法を学び始めたと感じているからです。例えば、GPT-3.5は常にそのような能力を発揮しており、私が試みたClaudeスタイルの一部では、非常に具体的な専門用語を創出し、新たな用語を発明することができます。つまり、「この思想流派とあの思想流派に基づいて、これが最も意味をなす用語である」といった具合に、全く新しい用語を明確に定義できるのです。ただし、時にはモデルは物語を作り上げ、幻覚のような誤った情報を生成することもあります。実際、妻がその点を指摘してくれたのですが、私は「創造性と幻覚との違いはそもそも何なのか」と問い返しました。ここで議論しているのは、蒸留などの技法とその他いくつかの要素の組み合わせに関するものです。また、この研究は再帰的であり、再帰的なループに入っているため、その点については後ほどさらに詳しくお話しします。
さて、一点覚えておいていただきたいのは、加速が依然として加速していると考える理由は、本質的にこれらすべてが数学に過ぎないということです。これらのシステムに投入されるすべてのデータ、すべてのトークン、注意機構、損失関数などは、すべて数学的なものです。一度十分な情報を内部に蓄えた閉じたシステムが構築されれば、そのサンドボックス内で永遠に遊び続けることが可能となります。たとえば、GPT-2やGPT-3の時代に比べ、そのサンドボックスは非常に小さかったのですが、現在のGPTは非常に賢く、さらにそのサンドボックス内には無限に遊べる「おもちゃ」が豊富に存在しています。DeepSpeed R1がこれを証明しており、その学習は主に自己対戦を通じて行われました。私の理解では、まだ論文全文を読んではいませんが、多くの方々がこの点について語っているのを聞き、またニュースを綿密に追っている結果、十分な情報を持った閉じたシステムができれば、臨界質量に達するのだと感じています。これは、核反応において、十分な数の中性子が他の原子核を分裂させ、その結果、さらに多くの中性子が発生して次々に原子核を分裂させる状況に似ています。特に、GPT‑o1のリリースやこの世代の推論モデルの登場とともに、人工知能において臨界質量に達したと感じています。つまり、もはや外部からの入力はそれほど必要ではなくなったのです。もちろん、これらのモデルは、より高品質なデータが取り込まれることで常に恩恵を受けますが、同時に第一原理に基づいて推論し、無限のデータを生成する能力を持っています。さらに、アルゴリズムはすべてオープンソースであるため、実質的に唯一の制約は計算リソースとなります。ある方々が指摘するように、その下流にある問題はエネルギーです。計算はエネルギーなしでは機能しませんが、同時に計算効率は向上しているため、エネルギーがかつて想定されたほど大きな制約ではないかもしれません。結果は時間が教えてくれるでしょう。
また、第一原理に基づく推論についてもう一点申し上げます。たとえば、人間の脳が実際に使用しているエネルギー量を考えると、1秒間にどれほどの計算を行っているかは正確には分かっていません。なぜなら、新しいスーパーコンピュータを作るたびに「これなら人間の脳に近い」と考えますが、実際にはそうではなく、その差は20%程度ではなく、桁違いに大きいのです。人間の脳はわずか約20ワットの熱、つまりエネルギーを消費しています。人体全体では約80~100ワットのエネルギーを使用していますが、たったそれだけで点灯する電球が、約1.3キログラムの「コレステロールコンピュータ」である脳に必要なエネルギーと比べても非常に低いのです。ここでの私の主張は、我々がこれらのシステムから引き出せる計算能力の熱力学的・物理的限界には、まだ到底達していないということです。また、この問題は一方向だけでなく両方向に作用します。すなわち、下限と上限が存在するのです。下限はランドの限界であり、計算を行うために必要な最小限のエネルギー量を示します。しかし、ゲーデルの不完全性定理、停止問題、量子の不確定性、そして還元不可能な複雑性といった概念が示唆するように、知能または有用な知能には上限が存在する可能性があります。つまり、より複雑で洗練された抽象概念を構築できたとしても、それが現実世界で役立つとは限らず、より正確な予測に寄与するとも限らないのです。従って、収穫逓減の法則が働く時点、すなわち利益が薄れる段階が必ず存在するはずです。これは最近私がよく話題にしている点であり、「それに到達できるか否かではなく、その収穫逓減のレベルはどこか」という問題ですが、現時点ではその明確な証拠は見えていません。しかし、数学的には実用的な知能の上限、あるいは天井が存在すると予測できます。
とはいえ、その段階においても最適化やアルゴリズムの改良に取り組むことは可能です。なぜなら、最終的には全員がスーパーインテリジェンスを持つ世界において、勝者はより速く、効率的に動作するスーパーインテリジェンスを有する者になるからです。そうすることで、並列により多くの処理を実行できるのです。これが現在の競争のダイナミクスが向かっている方向です。
また、私はNvidia、Microsoft、OpenAIなど、さまざまなテック企業の内部関係者と話をしてまいりました。一点指摘したいのは、これらのツールがGPT‑4以降、研究の進展を助けるために活用されているということです。これは再帰的なフィードバックループの一部となっています。たとえAIが完全自律型の再帰的自己改善を実現しているわけではなくとも、研究者たちを大いに支援しています。実際、GPT‑4以降、各大手研究所の内部で、フィルタリングされていないオリジナルのGPT‑4を用いたブレインストーミングが行われ、未検閲のGPT‑4ノートブックLMなど、さまざまなAIツールが生まれました。私が話を伺ったほとんどの研究者は、これらのツールを自身の研究の助けとして活用しています。たとえ完全に自律していなくとも、スノーボール効果、つまり複利的な効果が現れているのです。さらに、次世代の各モデルは数学の能力が向上しており、研究者の作業をさらに迅速にサポートできるようになっています。この非常に良い好循環は、過去1~2年の間、ほとんどの大手研究所で続いている状況です。
さて、次に進む前に、私のリンクツリーをご案内させていただきます。こちらには私のリンクがすべて一か所にまとめられております。私は複数のYouTubeチャンネルを運営しており、YouTubeが苦手な方のためにSpotifyでも配信し、さらにSubstackでも公開しております。これらのビデオはどこにでもアップロードされております。また、$5のパトレオンコミュニティを運営しており、専用Discordも設けています。そして、学習コミュニティもございます。これは単なる学習コミュニティではなく、私が教える全ての内容を網羅したものです。現在、『Unfor Your Life』という新しいコースに取り組んでおり、これは私がこれまでに犯してきた多くの過ちと、その修正方法をまとめたものです。これもまた、私が教えている内容の一部となっています。
さて、『FARSY』についてですが、これは「Fully Autonomous Recursive Self-Improvement」の略です。言葉自体はやや問題があるかもしれませんが、この文脈には適していると考えています。このテーマについては、多くの人々がしばらく前から議論しており、私が主張したいのは、これは単なる仮定上の事象であり、危険である可能性があるというだけの話ではないということです。実際、私はその危険性についてそれほど懸念しておりません。なぜなら、企業レベル、国家レベルの双方で、より速く、効率的で、コスト効果の高い方法で知能を向上させることが、最も抵抗の少ない選択肢であるという経済的必然性が働いているからです。もし人間がこのプロセスのボトルネックとなるならば、単にその人間を排除すればよいのです。つまり、どの国家や企業も、最も迅速かつ効率的に知能を向上させる方法を追求するでしょう。これが進化的圧力として作用し、全ての制約を取り除く非常に強力な動機となっているのです。
さらに、全体として見れば、Microsoft、OpenAI、Tesla、アメリカ、中国、ヨーロッパといった個々の存在が問題なのではなく、この競争のダイナミクスによって、種全体が利益を得るのです(ただし、我々が自らを破滅させない限りの話です)。このレース・コンディションは、誰もが研究、オープンソースデータ、情報共有、さらには和気あいあいとした(あるいはそうでない)競争に貢献するインセンティブを持つ仕組みとなっており、その結果、革新が促進されます。そして、その革新は、レースに参加しているかどうかに関係なく、全ての人々に恩恵をもたらすでしょう。なお、同時に全ての人々に害を及ぼす可能性もあり、その点についてはビデオの最後に少し触れさせていただきます。
もう一つ申し上げたいのは、AIは本質的に民主的であるということです。つまり、大学、企業、国家などが発表する研究など、オープンソースの共有から大きな恩恵を受けているのです。実際、あるRedditのスレッドでサム・アルマン氏が「オープンソースに関して、我々は歴史の誤った側面にいたかもしれない」と返信したのを見たことがあります。これが意味するのは、OpenAIがルーツに立ち返り、再びオープンな姿勢を取る可能性があるのかということです。私はそれを心から望んでいます。また、中国やDeepSpeedが示したように、誠意を持って参加すれば十分であると考えています。
次に合成データについてですが、これは私が何人かの方々との会話から得たもので、人類の全知識と可能性がこれらのモデルに圧縮され、モデルが第一原理に基づいて推論し、新たなデータを合成できるという認識に至ったからです。以前はモデルの崩壊(model collapse)という問題が懸念されていましたが、これは部分的には解決されたようです。先ほども述べたように、モデルは依然として生のインターネットデータ(非常に高いエントロピーとノイズを持つ)で訓練されていますが、訓練データの約50%を使用するなどの工夫がなされています。ちなみに、GPT‑4は非自明な割合で合成データを使用して訓練されていたと考えられます。最新のモデルはさらに合成データで訓練されていると考えられ、最適な比率は生データ50%、合成データ50%かもしれません。合成データの品質が向上すれば、この比率は変化する可能性もあります。ともかく、私の主張は、合成データこそが未来への道であり、専有データに莫大な費用をかけるよりも、データを解放することで全員が利益を得られるという、ウィンウィンのシナリオであるということです。
次に、ハードウェアの民主化についてです。DeepSpeed R1が登場した後、4090や3090、16GBのVRAM搭載環境で実行しているという報告を受けました。これは従来とは異なる状況です。そういうことから、そう遠くない将来、AGIはモバイルデバイス、家庭用パソコン、さらには車内や家庭内で稼働するようになると考えられます。ただし、常々申し上げている通り、より多くの計算資源を持つ者は依然として有利であり、並列により多くのインスタンスを実行できるという点は変わりません。
ここまでの内容を簡単にまとめますと、まずすべては数学であり、自己完結型のシステムとして成り立っています。もちろん、外部から追加情報を取り入れることで恩恵を受けることもありますが、皆が収束している方向は、オープンソースこそが最良の道であるという点です。次に、制約の解消についてですが、データ、計算資源、アルゴリズムはすでにオープンソース化されています。エネルギーが最大のボトルネックとなっていますが、私の他のビデオをご覧になっている方もご存じのように、エネルギー問題はむしろ脱炭素化の解決を促す要因になると考えています。エネルギーを拡大する最良の方法は、安価で豊富な太陽光発電や核融合といった技術に依存するからです。これも本質的に民主的なものです。そして、我々は完全自律型再帰的自己改善の段階に近づいています。とはいえ、これは厳密な必要条件ではなく、AIが既存の人間の作業を増幅する力(フォースマルチプライヤー)であるため、最終的には人間が最大のボトルネックとなる局面に至るでしょう。しかし、現状ではまだその段階に至っておらず、もしかすると人間を全く関与させずに済むようになるには、あと1~2年、あるいは3年ほどかかるかもしれません。なお、これはモデル研究のあらゆる側面、特に安全性に関する部分にも及びます。実際、OpenAIが自動安全性研究に取り組んでいるのはご存じの通りで、対抗テストやレッドチーミングを含むパイプラインの各部分を自動化しようとする動きは、ほぼ自明のことと考えられます。
以前、ターミナル・レース・コンディションについても触れましたが、要するに、あらゆる要因が一体となって、人類を極めて効率的なデジタルスーパーインテリジェンスの実現へと駆り立てているのです。これが、シンギュラリティ、すなわちターミナル・レース・コンディションの終局的側面であり、我々全員がある程度それに向かって昇華していくのです。
ここから、これらすべての要因が引き起こす主なリスク要因についてお話しします。第一に、国家や企業は安全なAIを作るインセンティブを持っています。安全でないAIを作れば、市場から「その製品はサポートしない、競合製品に乗り換える」という厳しい反応が返ってくるためです。例えば、PerplexityがDeepSpeed R1を非常に速く採用した例からも分かるように、気に入らなければ使われなくなります。これにより、これらのモデルはほぼ完全に互換性を持ち、ファンジブル(代替可能)となるのです。市場は、有用で安全なモデルを迅速に評価し、逆に安全性や整合性に欠けるモデルやそれを生み出す企業を罰する仕組みを持っています。私自身、この点について市場の力が問題を解決していると考えています。反対意見もありますが、企業や国家が悪意ある、または安全でないAIを作るインセンティブを持っているという証拠は見当たりません。むしろ、逆の証拠が多いと感じています。
次に、経済的混乱のリスクです。私たちは「認知のハイパーアバンダンス」、すなわち認知資源の過剰な豊富さの時代に向かっており、これが労働市場や既存の経済構造を大きく再編することになるでしょう。どのくらいの速さで、どれほどの痛みを伴うのか、あるいは混乱や暴動を引き起こすのかは、まだ決定的ではありません。長期的には、現状のオフィス勤務や月給生活から、社会全体が新たな経済環境に適応していけば良い結果になると考えていますが、その移行にかかる時間と痛みは大きな疑問です。
さらに、富の集中のリスクもあります。AIの所有権を民主化しなければ、前例のない社会的・経済的不平等、いわゆるディストピア的なサイバーパンク未来が現れる恐れがあります。正直に申し上げますと、これは人類文明にとって最大の長期的リスクの一つです。もしその力がほんの少数の手に渡れば、我々は非常に厳しい状況に陥るでしょう。技術そのものは本質的に民主的な性質を持っていますが、民主的な制度が適切に適応するとは限りません。私たちはブロックチェーン、集合的所有、分散型所有といった仕組みに投資する必要があります。ここで言う「集合的所有」とは、国家が所有するような社会主義ではなく、分散型自律組織(DAO)がすべてを所有し、誰もが自由に参加できる仕組みを意味しています。
次に、生物兵器のリスクです。AIの民主化は、生物兵器の開発に必要な知能の敷居を大幅に下げる可能性があります。もちろん、生物兵器の製造は依然として実験室や多くの機器、そしてそれらを扱える人材が必要ですが、AGIが普及し、IQが160に達するヒューマノイドロボットが一般化するにつれて、生物兵器の参入障壁はさらに低下していくでしょう。これは非常に深刻な問題です。なぜなら、生物兵器は一度放たれると追加のエネルギーや入力、監視を必要とせず、自律的に進化し、国境を越えて広がるからです。COVIDの件で実験室からの漏洩であろうと市場からの漏洩であろうと、一度外に出ると自律的に拡大してしまいました。AGIやASIでさえ、データセンター内という攻撃可能なリザーバーに依存しているのに対し、生物兵器は全くそのようなリザーバーを持たず、完全に自律的かつ分散化されているのです。
最後に、大国間の対立についてです。現状、ニュースを追う限り、アメリカ対中国の構図になりつつあるようです。トランプ氏はグリーンランドや関税などについて多くの施策を打ち出しており、潜在的な紛争に備えて、すべての物資を国内回帰(オンショアリング)させようとしているように見受けられます。オンショア戦略は現時点で国家安全保障政策の一環となっています。中には、トランプ氏がグリーンランドを、彼の億万長者の友人のために鉱物資源を確保しようとしているという意見もありますが、真偽は別として、地政学的戦略としては、より多くの鉱物インフラを開発し、高技術製品の製造に備えるのは合理的です。もちろん、私はグリーンランドやカナダへの侵略を支持するわけではなく、これはあくまでトランプ氏の行動を冷静かつ方法論的な視点から分析した結果です。私は国境を無理に消し去ることや変更することを支持しておらず、民主的かつ外交的なプロセスを信じています。世界情勢が激化する中で、アメリカとカナダ、あるいはアメリカとグリーンランドとの間で、双方にとってウィンウィンなシナリオが実現できると考えています。
以上、ご視聴いただきありがとうございました。ビデオから多くの知見を得ていただけたなら幸いです。いいねやチャンネル登録もよろしくお願いいたします。また、私のリンクツリーもぜひご覧ください。YouTubeだけでなく、様々なプラットフォームでコンテンツを提供しております。それでは、どうぞ良い一日をお過ごしください。