進化と散逸系に基づくAGIに至るスケーリング理論
5,116 文字
何度も何度も見てきたように、必要なのはスケールだけなんです。スケールは実際、モデルに組み込もうとする賢いヒューリスティックをも上回る性能を示してきました。これは苦い教訓と呼ばれてますけど、なぜ勾配降下法やバックプロパゲーション、報酬関数といったシンプルなルールに基づくシステムにエネルギーやコンピュートを注ぎ込むことで、これほどの複雑さが生まれるんでしょうか。なぜこれが知能につながるんでしょう。
実はその答えは生命そのものにあるんです。私たちの周りを見渡すと、どこにでも複雑さが存在してます。この複雑さは、何かにエネルギーが注ぎ込まれることで生まれたもので、物理学では散逸系と呼んでます。進化やニューラルネットワークを見ると、これらはすべて散逸系なんです。複雑さに到達し、最適な状態に達するためにエネルギーを取り込むオープンなエネルギーシステムです。
そのため、苦い教訓と同じように、このようなシステムには知能をプログラムする必要はありませんでした。ニューラルネットワークに知能をプログラムする必要がないのと同様に、生き物が複雑で知的になるように、何か知的なものがプログラムする必要もなかったんです。必要だったのは、エネルギーが流れ込む散逸系だけでした。
でも、エネルギーだけでは十分ではありません。これらの進化する複雑なシステムには、3つの前提条件が必要やと特徴づけることができます。選択の手順と、何らかの形での突然変異、そしてエネルギーが必要なんです。この3つがあれば、それが散逸系である限り、複雑になり、最適な状態を見つけることができます。
では、この3つについて見ていって、それらが進化とニューラルネットワークの両方にどのように当てはまるのか、両者の類似点を見ていきましょう。そして、このような直感をどのようにAIの未来予測に活用できるのかについて話していきましょう。
まず選択からです。進化の場合、選択は動物間の競争であり、高い適応度を持つ個体が生き残り、子孫に伝えられる競争です。ニューラルネットワークでは、最も損失の低いウェイトを選択しています。社会システムでも選択を見ることができます。例えば資本主義を見ると、最も利益を上げるものを選択し、それによって最高のイノベーター、最高のアイデア、最高の労働者を見つけようとしています。選択からの創発は私たちの周りのいたるところで見られます。
でも、選択以外にも多様性が必要です。多様性がなければ、何を選択することができるでしょうか。すべてが同じなら、最良のものを選ぶことはできません。そのため、多様性を導入するメカニズムが必要なんです。進化では、これが突然変異です。
ニューラルネットワークでは少し見にくいかもしれませんが、突然変異は勾配降下法です。ウェイトが変化するたびに、勾配降下法によって突然変異します。突然変異の速度は、勾配降下法のステップサイズによって決定されます。ステップサイズとは、モデルが損失曲面の一点から別の点にどれだけ遠く歩むかということです。
突然変異率が低すぎると、特定の器官、例えば前進するための鞭毛のような器官を持つバクテリアを生み出せないかもしれません。鞭毛を作るには、8つか9つ、もしかしたら12の異なる突然変異が同時に必要かもしれません。これらすべてが同時に起こる確率は非常に低いので、この生物は効率の悪い形態に長く留まる可能性があります。突然変異率が十分でないために、局所的最小値に留まってしまうんです。
しかし、突然変異率を上げると、必要な突然変異のうち7つを持ち、鞭毛を生成して新しい低い最小値に到達することができるかもしれません。これはニューラルネットワークでも同じで、学習率を上げることで局所的最小値から抜け出し、曲面のより低い点に到達することができます。
ただし、問題もあります。高い突然変異率は、例えば動物ではがんを引き起こし、機能不全を引き起こします。ニューラルネットワークでも同様で、高い突然変異率は時として最良の状態、大域的最小値にいる状態から飛び出して、より効率の悪い場所に戻ってしまうことがあります。
このように、これらのシステムは非常によく似ています。進化とニューラルネットワークは、選択においても突然変異においても似ているんです。でも、これで終わりではありません。進化とニューラルネットワークの類似性は、非常に重要でありながらしばしば見過ごされる部分、つまりエネルギーの必要性にまで続きます。
エネルギーこそが、スケーリング則が存在する理由を説明するものです。なぜなら、私たちは散逸系を見ているからです。散逸系にエネルギーを注ぎ込むと、システムは最適な状態に達します。最適な状態に到達するために複雑さを増していくんです。
これは進化でも見られることで、エネルギーを注ぎ込むと、この場合太陽からのエネルギーですが、太陽がなければ生命は存在できませんでした。この太陽がパワーを生み出し、時間とともにパワーと時間がエネルギーを作り出します。そのエネルギーは生物によって使用され、この場合のシステムが最高の適応度、つまり大域的最小値に到達するために使用されます。
十分な時間とパワー、十分なエネルギーがあれば、より低い最小値に到達し、より良い解決策を見つけることができます。これは私たちが見てきたことで、生物は時間とともにより複雑になり、より複雑になっていきました。そして、AIでも全く同じことが起きているんです。
時間とともにAIはより複雑になり、システムはより賢くなっていきます。最適な状態に到達しているんです。なぜなら、これは散逸系だからです。エネルギーがこれをスケーリング則に向かって動かすからです。スケーリング則は経験則として記述されていますが、散逸系の観点から見ると、これは単なる経験的事実ではなく、物理的な法則なんです。
進化が選択手順と突然変異とエネルギーを持つことで複雑さを生み出し、時間とともに複雑さを増してきたように、知能でも同じことが起きています。私たちには選択手順があり、最も低い損失曲面を選択しています。勾配降下法による突然変異があり、エネルギーを持つシステムがあります。エネルギーはコンピュートです。
つまり、進化と同じ材料をすべて持っているんです。散逸系を持っており、複雑さの増加を見ることになり、最適な状態への到達を見ることになります。
これらのモデルの性能向上だけでなく、もう一つ期待できることがあります。それは、これらのモデルの過去から現在の状態を見て、未来の状態を推測できることです。これらのモデルの過去はどうだったでしょうか。過去は特殊化したAIでした。将棋で最強を目指すような特殊化したAIから、すべてにおいて優れた、よりジェネラルなAIへと進化してきました。
そして、特殊から一般へ、さらに一般へと上向きのトレンドがあります。これもまたコンピュートによって引き起こされています。エネルギーによって引き起こされているんです。なぜなら、システムが最適な状態に到達するために必要なエネルギーは、その探索空間によって定義されるからです。探索空間が大きければ大きいほど、この大域的最小値に到達するためにより多くのエネルギーが必要になります。
進化の場合、探索空間は無限であり、そのため多くのエネルギーが必要でした。だからこそ進化には長い時間がかかり、太陽から大量のエネルギーを得ました。これが、現在の生物の複雑さが非常に高い理由です。
しかし、将棋を学習する特殊化したAIの場合、探索空間ははるかに小さく、必要なコンピュートもはるかに小さいです。複雑さを生み出すためにそれほど多くのコンピュートは必要ありません。これが、私たちが長い間特殊化したAIに留まっていた理由です。より一般的なAI、より一般的な報酬関数を持つAIは機能しなかったでしょう。コンピュートを持っていなかったからです。
したがって、私たちが見ている能力の向上は、コンピュートによるものです。確かに、いくらかの創意工夫は必要でした。次の単語予測を一般的な知能にアプローチする方法として使用できるというアイデアを思いつく必要がありました。しかし、ボトルネックは創意工夫ではなく、コンピュートでした。同じアイデアを20年前に持っていたとしても、コンピュートがなかったため機能しなかったでしょう。
コンピュートが増加するにつれて、報酬関数の一般性も同様に増加するのが見られます。これは単に散逸系だからです。システムにより多くの複雑さが生まれるのを見ることができます。
現在、私たちは特定のアーキテクチャと特定の報酬関数の中でそれを制約しています。例えば、モデルの創造性を制限しています。強化学習を使用してモデルに歩行を教える場合、まず右足を動かし、足を着地させ、次に左足を動かし、足を着地させるといった部分目標を教えます。これらの部分目標で制約すると、より効率的な歩き方を学ぶことはできません。
樽のように転がる方が効率的かもしれませんが、より狭い目標で制約しているため、それはできません。将棋を学ぶことだけに制約したり、次の単語予測だけに制約したりするのと同じように、現在は制約しています。今では非常に一般的な報酬関数を持っています。
そこで、コンピュートを増やすにつれて、次のステップはどうなるのかと疑問に思うかもしれません。これからどのようにしてさらに一般的になれるのでしょうか。例えば、モデルに「次の単語を予測してください」と頼む代わりに、私たちが実際にモデルに望んでいることにより近い「この病気を治してください」「科学を解決してください」といったことを頼むことができます。
現在それをしない理由は、そうすると、モデルがその目標に到達できる方法があまりにも多く、探索空間があまりにも広大すぎて、とても実行できないからです。しかし、数年前には次の単語予測が実行不可能だったのに今は可能になったように、将来はこのようなよりグローバルな報酬関数を持つことも可能になるでしょう。
報酬関数以外にも、アーキテクチャ自体も見ることができます。なぜなら、モデルの自由度はアーキテクチャ自体でも制約しているからです。トランスフォーマーモデルを使用していますが、トランスフォーマーモデルが最も最適なモデルだと誰が言えるでしょうか。
モデルにウェイトを変更することを教えるのと同じように、ニューロンを追加したり削除したり、この意味でプラスチックであったり、アーキテクチャの他の部分を変更したりすることを教えられないのでしょうか。ウェイトだけでなく、アーキテクチャ自体にも一種の突然変異を加えることができ、ウェイトと一緒に最適なアーキテクチャを最適化させることができます。
これは誰も思いつかなかった天才的なアイデアではありません。実際、Googleはこれを以前に試みています。彼らは視覚的ニューラルネットワークのアーキテクチャを見つけ、それらは非常に効率的で、リーダーボードのランキングでトップを記録しました。しかし、彼らもコンピュートの理由でこれを適用していないことを認めています。
ボトルネックは常にコンピュートであり、創意工夫ではありませんでした。創意工夫は役立ちますが、主にコンピュートによってボトルネックが生じています。そして、コンピュートが非常に確実にスケーリングし、非常に確実に増加していることを考えると、シンプルなルールを持つ散逸系を扱っており、散逸系で複雑さが増加することを知っているため、より多くの知能を見つけることは避けられません。より性能の良いAIを見つけることは避けられないんです。
私たちはトランスフォーマーのアーキテクチャに制約されているわけではなく、この形の学習に制約されているわけでもありません。唯一の制約はコンピュートです。コンピュートが増加するにつれて、より良いアーキテクチャを見つけることができ、それには人間さえ必要ありません。必要なのはエネルギーだけで、エネルギーがAIの進歩を推進します。
そして、私たちは独自のアーキテクチャを選択し、独自の学習形態を選択し、独自の報酬関数を選択するようにAIを解き放つことになります。おそらくこれらすべては、単なる外挿から、散逸系と進化、そして学習との類似性を理解することから予測できることなんです。
このように、スケーリング則はAIの法則以上のものです。実際には、物理学の概念によって記述される自然の法則の反映なんです。