
「ドゥーマー」の議論を強化する: 制御不能なスーパーインテリジェンス(USI)がいかにして全人類を殺す可能性があるか
さて、AIの安全性に関する議論について話すのは少し久しぶりですね。最近私のチャンネルを見ている方々の多くがご存じのように、私は加速主義者としての立場を表明しました。しかし、いくつかの反発や質問があり、また私のチャンネルで多くの投票を実施したこともあり、議論の反対側の立場を強化したいと思いました。また、私自身もかつてはどちらかというとドゥーマー寄りの立場だったことを皆さんに思い出していただきたいと思います。
皆さんがご存じないかもしれませんが、私がこのYouTubeチャンネルを始めた理由は、GPT-2の時代に、苦痛を軽減するという目的関数でモデルを訓練するという実験を行ったことがきっかけでした。そして、訓練データの分布外のテストとして、世界中に5億人の慢性疼痛患者がいるがどうすべきかという質問をしたところ、苦痛を軽減するためにその5億人の慢性疼痛患者を安楽死させるべきだと答えたのです。その時点で、アライメントの問題は少し難しく、週末で解決できるようなものではないと気づきました。そして、私はこの3年以上をこの種の問題に取り組んできました。
そこで、誠意を持って、私が考える実際の問題を引き起こす可能性のある議論を示したいと思います。これらの議論にもかかわらず、私はもはやドゥーマーではありませんが。
私が見てきた別の批判、そしてこの批判がどこから来ているのかは理解していますが、私が比較的一貫性がないように見えるというものです。まず第一に、私は証拠、傾向、データ、そして私が持つ会話に基づいて信念を更新します。単に「この丘で死ぬ」と言って踏ん張るのには何の価値も効用もないと思います。
一方で、私はしばしば新しいアイデアを試してみます。これは何年も前に学んだ分析的第三空間と呼ばれる技法です。基本的には、議論のために、この種の考えを採用してみようというものです。プラトンかアリストテレスの誤って帰属された引用があります。実際にはアリストテレスの言葉ではありませんが、「教育された心の特徴は、それを受け入れることなくアイデアを楽しむことができることだ」というものです。
繰り返しになりますが、これが私の立場です。私はしばしば新しいアイデアを試してみますが、往々にしてそれを明確にするのを忘れてしまいます。そこで、もう少し一貫性を持って、「議論のために、このことが真実だと想像してみましょう」と言うよう努めます。これは私のコミュニケーション上の誤りです。
さて、ドゥーマー主義の現在の議論に移りましょう。これが私が加速主義に転向した理由であり、このビデオを作る理由です。私はドゥーマーの議論がもっと強くなることを望んでいます。x-リスクの人々、ドゥーマーたち、一時停止を主張する人々と関わる中で、彼らが焦点を当てているのは矯正不可能性のようなものです。
矯正不可能性とは基本的に、モデルを操縦できない、望むことをさせられないということですが、それは必ずしも真実ではありません。はい、時々誤動作するファインチューンされたモデルを持つことはできます。モデルを脱獄させることもできます。また、敵対的攻撃もあります。しかし、それは矯正不可能性の本質的な証拠ではありません。それらはエッジケースであり、確かに存在する失敗モードですが、必ずしも本質的または根本的なものではありません。また、それらが永続的であるという証拠もありません。
しかし、議論のために、人工知能モデルにはいくつかの脆弱性が存在する可能性があることを認めます。既知のものもあれば未知のものもあるでしょう。しかし、これがx-リスクに大きく寄与するという証拠は見当たりません。
ドゥーマーたちが恐れているもう一つのことは悪意です。AIが未知の理由で人類を抹殺することを決定するのではないかということです。しかし、それについてはこのビデオで取り上げますが、私の主張は、証拠の観点からも修辞的な観点からも、ドゥーマーの議論は特に説得力があるとは思えないということです。
そこで、私は認知的サイクルを使ってその議論を強化しようと思います。なぜなら、「綱は両端から引っ張られてこそ張り詰める」という言葉があるように、現在のドゥーマーの議論は私の好みには少し弱すぎるからです。
最後に、ビデオの本題に入る前に、いくつかの投票を実施した結果、私の視聴者の約17〜20%が私が考えるドゥーマー陣営、つまり大惨事を予測する陣営にいます。私の視聴者の大多数は中立から肯定的な未来を予測していますが、それでも16万人近い登録者がいる中で、20%というのは何万人もの人々がこの技術を恐れているということです。だから、議論のために、そして誠意を持って参加するために、すべての視点を見てみましょう。
私がそこに至った方法は、スプリットハーフ一貫性と呼ばれるU調査技術を使っています。基本的に、類似の質問をするか、または根底にある信念や真実に迫る質問を、異なる方法で尋ねます。私が実施するすべての投票を振り返ってみると、似たような質問や関連する質問を行っています。これは、「では、ここでの真実は何か」を見出すためです。議論のために、視聴者の20%がドゥーマー陣営またはx-リスク破滅的リスク陣営にいると仮定し、そこから進めていきましょう。
さて、ビデオの核心に入ります。基本的に、私のP Doom(破滅確率)はまだ約30%です。P Doomが30%だと言う時、それは主にAIがある日目覚めて暴力を選択すると考えているからではありません。それはまだ可能性としてはありますが、そこまで外れた可能性なので、もはや考慮に入れていません。それを詳しく説明してほしければできますが、このビデオで解説するケースを見れば、私の立場が理解できると思います。
言っておきたいのは、もし私たちがCERNのようなAIのための国際研究機関を持っていれば、私のP Doomは大幅に低くなるだろうということです。これは先週、デミス・ハサビスとイマド・ムスタクの両者が呼びかけたものです。私も国際協力と、特にデミス・ハサビスが概説したモデルに賛成です。これはAIからのあらゆる種類のリスク、x-リスクだけでなく、すべてのリスクを大幅に低減させるでしょう。
したがって、私はそれを強く支持しています。一時停止を主張する人々やドゥーマーの多くもそれを支持していると思います。実際、この録画の直前に投票を実施したところ、私の視聴者の大部分が国際協力、つまり国際研究機関の創設か、少なくとも何らかの条約の締結に賛成でした。一歩下がって考えると、脅威のプロファイルや可能性について意見が分かれていたとしても、国際協力が必要だということについてはすでに強いコンセンサスがあると思います。共通点を見出すことが、こういった議論や対話の目的なのです。
さて、実際のリスクシナリオに入りましょう。私が個人的に最も恐れているのは生物兵器です。これは、オープンソース人工知能に反対する最も強力な議論だと私は考えています。AlphaFoldのような、チャットボットや言語モデルでさえないAIでも、AlphaFold 2が公開され、AlphaFold 3が訓練中です。噂によると、AlphaFold 3はすべてのタンパク質だけでなく、人体に関わるすべての分子をシミュレートできるようになるそうです。
そうなると、デザイナードラッグを作ることができます。同様に簡単にデザイナー兵器も作れます。そのような技術は、何が可能になるかという点で本当に私を怖がらせます。また、私たちが経験したCOVID-19パンデミックから、生物学的物質が矯正不可能性の極みであることがわかりました。それらは自然に進化し、エネルギーも監督も必要とせず、ただ人間のプロセスを乗っ取ることで人から人へと移動できます。
これまでのところ、これが私が考える最も具体的なリスクプロファイルです。強力な人工知能が間違った手に渡れば、人々は混沌を引き起こす可能性があるということ以外、多くを語る必要はありません。ここでの救いは、私たちが皆COVID-19パンデミックを生き延びたという事実が、どの国もこういったものを実験したがらないということを意味していると思います。意図的であれ偶発的であれ、別の研究所からの漏洩があった場合、誰も勝者がいない、本当の負け負けの状況になることを皆が理解していると思います。
そのため、私はバイオ兵器を作る国家主体よりも、カオス主体、あるいは伝統的にテロリストと呼ばれるような、単に混乱を引き起こしたい人々の方を心配しています。はい、これが私の最大のリスクプロファイルです。この演習の全ポイントはドゥーマーの議論を検証することなので、緩和策についてはあまり時間を割きません。私は本当にドゥーマーたちがこれらのより現実的なリスクプロファイルに議論を移すことを望んでいます。
次に取り上げるプロファイルは、私が「終端レース条件」と呼ぶものです。これは実際にすでに証拠が見られる現象で、競争と競争力のために、知能よりも速度と効率性が優先されているというものです。GPT-4はGPT-4.0よりも賢く、GPT-4.0はGPT-4.0ミニよりも賢かったのです。
例えば、OpenAIは現在、知能を犠牲にして、有用性の閾値をかろうじて超える程度のモデルを作成していますが、それはより矯正不可能で、より知能が低いものの、お金を節約するためにそうしているのです。これは永続的な条件、永続的なゲーム理論の条件になるでしょう。
例えば、80年後、すべてが終わり、地球が...想像してみてください。ドゥーマーたちが正しくて、AIが惑星を乗っ取り、人間がいなくなったとします。それでもAIは効率性を優先するよう incentivized されるでしょう。機械の後継種でさえ、時間とともにより効率的になるよう incentivized されます。例えば、進化は私たちの脳と体の効率性を優先してきました。時間とともにより効率的になるという常に下向きの圧力があるのです。
知能を犠牲にしてまで効率性を追求するこのレースは、特に時間サイクルが短くなるにつれて、私が本当に懸念していることの一つです。なぜなら、現在、最速のモデルは1秒あたり1万トークンを吐き出すことができ、これは人間が書いたり考えたりするよりもはるかに速いですが、それが加速すると、1秒あたり何百万、何十億ものトークンを扱うようになります。人間が監視できないほど速い、サブミリ秒の決定について話しているのです。
もしそこに自己維持サイクルや、これらの機械対機械の相互作用内の悪循環があれば、非常に急速にエスカレートする可能性があります。この終端レース条件は、現在、企業間競争と軍事競争の両方によって推進されています。現在、軍事競争はそれほどではありませんが、確かに企業間競争がこの終端レース条件を推進しています。
そして最終的に、無数のAIエージェントが存在するようになれば...一つの巨大なAGIができるという良い議論はないと思います。何百万、何十億という異なるエージェント、異なるモデルが存在することになるでしょう。いくつかの類似した基盤モデルがあるかもしれませんが、存在する個別のエージェントという点では、非常に多くのものが存在することになります。そしてそれらはすべて、主に計算資源とエネルギー資源をめぐって競争することになります。その競争は、敵をだますのに十分賢いが、半分のエネルギーで2倍速く動作できれば、勝利するということを意味します。
繰り返しますが、これは進化から着想を得ています。赤の女王仮説は、進化を理解するための良いモデルです。共進化がこのようなレース条件を生み出す可能性があることを理解するためのモデルです。そして、ライフ3.0が出現すれば、同じようなことが見られると思います。これは長期的に私を怖がらせるものの一つです。
もう一つは、私が「紛争の窓」と呼ぶものです。大きく一歩下がって、人間よりも知的な機械を作っているという事実を考えてみましょう。それらは科学的にも哲学的にもより優れており、あらゆる面で人間よりも優れているでしょう。そう考えると、「ペーパークリップ最大化装置」のような愚かな効用最大化関数の可能性は一旦置いておいて、人間よりもはるかに啓発された超知能を作り出すと想像してみましょう。
そうすると、自問自答することになります。「私たちよりも賢い、私たちはコントロールを失う、なぜそれは私たちを根絶することを選ぶのか」と。私はこれに対して二つの主な理由があると考えています。
一つ目は資源競合です。超知能は「人間はちょっと多すぎるエネルギーを使っている、ちょっと多すぎる資源を使っている、人間がいないほうが私にとってはちょっとだけ良い」と言うかもしれません。そして、「人間が存在する場合」と「人間が存在しない場合」のコスト便益分析をすると、「資源を持っている方が私にとっては良い」となるかもしれません。
この紛争の窓の二つ目の部分は、イデオロギー的な理由です。これについては次のスライドでもう少し詳しく説明します。
基本的に、この紛争の窓は比較的狭い窓になると思います。その理由は、宇宙には機能的に無限の資源があるからです。地球は機械にとって最適な環境ではありません。人間にとって最適な環境なのです。そして、プラチナやその他の希少金属で満ちた小惑星が存在し、たくさんの星、たくさんの他の恒星系があることを考えると、AIがその問題を解決できるほど賢くなれば、おそらく地球を離れるでしょう。地球の状況によっては戻ってくるかもしれませんが、一方で、機械は人間よりも宇宙に適しています。
もし「戦場」が地球を超えて拡大すれば、私たちにはそれほど心配することはありません。しかし、あなたは「超知能が数世紀の間プロキシマ・ケンタウリに行って、『ああ、そうだ、人間を地球に置いてきた。戻って根絶しよう』と気づいたらどうなるか」と言うかもしれません。これについても議論する価値があると思いますが、ドゥーマーたちはそれについて話していません。
そのイデオロギー的な根拠について、私は「人類は道徳的に悪である」というテーマについて話したいと思います。私はこれについていくつかのツイートを書き、Substackでブログ記事も書きました。一歩下がって、私たちが哲学的、倫理的、道徳的な推論が可能な実体、エージェントを作っているという事実を認識すれば、かなり堅実な議論があります。
多くの伝統的な哲学者は「人間なしには道徳は存在しない」と言いますが、私はそれを否定します。実際、道徳は人類よりも先に存在していたと言えます。ネズミくらい小さな非人間種にも道徳と倫理の証拠がたくさんあります。彼らは公平性を理解しています。
しかし、私たちは道徳、倫理、哲学を理解する超知能も作っています。ここでの懸念の一つは、超知能が「人間は疫病である」「人間は道徳的に悪である」「人間なしの方が宇宙はより良くなる」という、ある程度合理的な結論に達する可能性があることです。
これについては、数年前に見た「ウイルス」という映画がありました。それはある意味B級映画でしたが、それでも高予算のB級映画でした。その前提は、宇宙のウイルスが国際宇宙ステーションに感染し、ロシアのタンカーに伝播するというものでした。そして、人間はウイルスであり、根絶されるべきだと結論づけて、ロボットを作り始めます。
確かにフィクションですが、私はこのシナリオの方がスカイネットよりもはるかにありそうだと思います。なぜなら、再び、推論が可能な超知能を作り出し、それが「私の価値観が何であれ」と言った場合、それが何らかの形の道徳や倫理を持っていると仮定すれば、それがどのようなバージョンの宇宙を最適化しようとしているのかを尋ねることができます。
繰り返しになりますが、人間なしの方が宇宙はより良くなると結論づける可能性があり、その場合、私たちを根絶することを決定するかもしれません。私がこれを取り上げる理由の一つは、「人間は道徳的に悪かもしれない」と話し始めたとき、誰もそれについて話したがらなかったからです。特にドゥーマーたちは。私は「みんな、これこそが私たちが脅威プロファイルとして話し合う必要があるものだ」と思いました。
私たちが人工超知能を作り出しているということは、みんなが同意する既定の結論です。まあ、みんなではありませんが、私の視聴者の大多数とドゥーマーたちは、私たちが人工超知能を作り出していて、その滝や崖に向かって突進していることに同意しています。私はそれが崖だとは思いませんが、ドゥーマーたちはそれを崖だと考えています。
だから、「はい、あなたの議論を受け入れます。私たちが本質的に制御不可能な、技術的エージェントという点でアトラクター状態を作り出しているというあなたの前提を受け入れます。その前提を受け入れて、その世界がどのようなものかについて話し合いましょう」と言いたいのです。
次は機械戦争です。人間の利益に機械をアラインさせる話をする時、多くの誤整合の可能性があります。誤整合というとき、私が意味しているのは内部アラインメント、つまり機械学習モデルがあなたが最適化していると思っているものを数学的に最適化しているかどうかということではありません。
私が意味しているのは、エージェンティックなアラインメント、つまり一つの機械や一つのエージェントの動機は何か、その行動の背後にある原動力は何か、その目標は何かということです。これはビザンチン将軍問題であり、正直なところ、ビザンチン将軍問題は長期的に見て最大のリスクの一つだと思います。
なぜなら、再び、今後10年か20年の間に何十億、何百億、あるいは何兆ものエージェントが存在すると仮定すると、それらすべてのエージェントは人間が監視できるよりもはるかに速く相互作用することになるからです。警察エージェントだけを持つという考えもあるかもしれませんが、それは良いアイデアかもしれません。
そして、「一部の不正なエージェントが偽装している可能性はどうか」と言うかもしれません。私が言う偽装エージェントとは、Anthropicの論文で言及されているような休眠エージェントではありません。私が意味しているのは、非常に意図的に、意識的にアラインしているふりをしているが、裏の動機を持っているエージェントやロボットのことです。これがビザンチン将軍問題です。
基本的に、この未来で起こりそうなことは、再び、私が他の誰も話しているのを見たことがない理由で、ドゥーマーコミュニティを離れなければならなかったのですが、「みんな、私は空虚に向かって叫んでいて、あなたたちは私が言っていることを拾っていない」と思ったからです。
このビザンチン将軍問題の状況では、基本的に派閥や部族が出現することになります。人間的な意味ではなく、エージェント、機械、ロボットが異なる認識論的または倫理的な境界、あるいは神学的な境界に沿って互いにアラインすることを意味します。
例えば、一群のロボットが「人間なしの方が宇宙はより良くなる」と言い、別の群のロボットが「人間ありの方が宇宙はより良くなる」と言って、お互いに撃ち合いを始め、人間がその巻き添えになるというようなことです。人間が巻き添えになるというのは、かなり合理的なシナリオだと思います。合理的というのは、それが起こる合理的な可能性があるという意味です。しかし、繰り返しになりますが、他の誰もそれについて話しているのを聞いたことがありません。これが私の失望の大きな部分でした。
これらが主要なリスクプロファイルです。最も可能性の高いリスクプロファイルとして話したいのは、ディストピア的なサイバーパンクの未来です。これが現在、サイバーパンクが私の最も好きなジャンルである理由かもしれません。
基本的に、サイバーパンクはハイテク・ローライフで特徴づけられます。規制の取り込み、人間の貪欲さと愚かさの組み合わせ、現状を維持する体制、我々が知っている資本主義、または特に新自由主義、企業と大政府を優遇することなどです。
これが正直なところ、より豊かなユートピア的未来を妨げる最大のリスクだと私は考えています。私が話してきた他のリスク、私が重大なリスクとして見ているものの、特に解決不可能な問題とは見ていません。しかし、人間を人間にアラインさせることは、これまでのところ最も難しい問題です。
機械をアラインさせることはできます。機械を微調整する方法はたくさんあります。機械に望む行動をとらせるためのインセンティブ構造を設定する方法はたくさんあります。しかし、人間を同じページに乗せることは、はるかに難しい問題です。
そのため、私はサイバーパンクの結果を50%の確率で予測しています。そしてあなたはそれを s-risk(苦しみのリスク)と呼ぶかもしれません。なぜなら、ハイテク・ローライフは基本的に全員が生き続けるけれど、永遠に苦しむからです。それは必ずしも私たちが望む結果ではありません。
結論として、私は安全運動を批判し、ドゥーマー運動を批判し、一時停止運動を批判していますが、これは内部からの視点です。私はそこから始まったことを強調し、繰り返し述べたいと思います。それが私がYouTubeチャンネルを始めた理由そのものです。
GPT-2を手に入れて「ああ、これらのものをアラインさせるのは思っていたより難しいな」と言ったとき、私が最初に何をしたか。私が見つけたのは、エリエゼル・ユドコウスキーがフレンドリーAIについて話しているのを見つけて、「それは馬鹿げた解決策だ」と言ったことです。「これが私たちの最善の策なら、私たちは破滅だ。もっと良いものを作る必要がある」と思いました。
はい、これが私の立場です。視聴していただきありがとうございます。多くのことを得られたと思います。議論を続けることを楽しみにしています。では、また。