制御不能なAIと共に、私たちがシミュレーションの中に閉じ込められている理由

2024年11月22日 22:21

16,493 文字

こんにちは。本日はルイビル大学のAI安全性研究者、ロマン・ヤンポルスキー教授にお越しいただき、AIが完全に制御不能になる可能性についてお話を伺います。
ロマン、まず自己紹介をお願いできますか？
はい。ルイビル大学のAI安全性研究者のロマン・ヤンポルスキーです。AI制御の様々な側面について10年以上研究してきました。本を2冊出版し、数百本の論文を発表しています。
数百本の論文というのはかなりの数ですね。
ええ、ただしAI安全性に直接関係するものばかりではありません。サイバーセキュリティやバイオメトリクス、関連するコンピュータサイエンスの概念についても多く研究してきました。
AIの安全性問題には、いつ頃から取り組んでいるのですか？
高度なAIシステムの安全性に関する初期の論文は2010年か2011年頃からですね。その前の博士課程では、ポーカーボットのような基本的なAIに対する安全性を研究していました。当時はポーカーボットが蔓延していて、それがAIを憎み、戦うきっかけになりました。
今日は3つのパートに分けてお話ししましょう。死の否定、シミュレーション仮説、そしてAIは制御不能かどうか、についてです。
まず、第1部の「死の否定」についてです。これは文明としての私たちが、AGI（汎用人工知能）に向かって突き進んでいることを指していますよね？その点について説明していただけますか？
私がAIの危険性や、それが実存的な問題になる可能性について話すと、よく受ける質問があります。「私の仕事はなくなるのか？」というものです。最初は理解できませんでしたが、これは人間の別のバイアスにも当てはまると思います。私たち全員がいつか死ぬという事実を否定することです。
毎分、毎秒、私たちは死に近づいているのに、それについてあまり何もしていません。政府は予算の99%を老化問題の解決に充てているわけではありませんし、100歳の超富裕層も、彼らが気にすべき唯一の問題の解決にお金を使っているわけではありません。
これは私たちが常に落ち込まないようにするための認知バイアスだと思いますが、このバイアスが人類レベルで問題になっています。私たちが文明の死につながる可能性のある技術を作り出していることを否定しているのです。
ロマン、私は動画を作っていますが、私の仕事はなくなるのでしょうか？あなたが本物の人間なのかAIなのかさえ分かりません。2分前にお会いしたばかりで、素敵な方に見えますが...
私の最初の数本の動画では照明が悪く、顔が平面的に見えたので、私がAIじゃないかと冗談を言われました。実際にそうかもしれないし、自分でもそれを知らないかもしれませんね。
他の人々が持つバイアスは、AIへの競争についての考え方にどのように影響していますか？実存的リスクの問題を解決しようとする時間を費やす価値がないと言う人もいます。今現在差別を受けている人々を見てください、というわけです。もちろんそれも問題で解決すべきですが、私には全員が死ぬ方が、本来得られるはずのローンが得られないことよりも深刻な事態に思えます。負の影響の大きさに基づいて優先順位をつけるべきではないでしょうか？
AIの公平性に取り組んでいる人は確かに多いですが、冗談ではありますが、AIが全員を殺せば、それは非常に公平ということになりますね。何かを強く最適化することの問題点がそこにあります。がんがなくなるのは人々がいなくなるからとか、不公平がなくなるのは人々がいなくなるからとか。
これは難しい問題で、私は不可能だと主張するでしょう。人々は何もできないと気付くと、その問題について考えることを避けたがります。そもそも問題があると思っていない人々を、私はAIリスク否定派と呼んでいます。私たちはその主張を調査した論文を複数持っています。「AGIは決して作られない」「AGIは賢いから私たちに優しくしてくれる」など、何百もの主張がありますが、それらは様々な認知バイアスに分類できます。各認知バイアスに対して、この重要なトピックに関心を持たない理由が1つずつ対応しているのです。
最も基本的で単純なのは利害の対立です。AIの開発で数十億ドルを稼いでいれば、それが非常に悪いことだと理解するのは非常に難しいでしょう。
その点について続けたいと思います。なぜなら、以前あなたが億万長者には果たすべき役割があると言及されていたからです。AIラボが現在のように行動しているのは、リーダーシップの問題であり、ある意味強制されているからだと分かっていますが、実際に権力を持っている人々が億万長者だということは、私には馬鹿げているように思えませんでした。彼らは私たち一般の人々とは異なる見方を持っているかもしれませんよね？
まず、私は億万長者が好きだと言っておきたいのですが、彼らは一般的な人間の問題にはあまり関心がないという状況にあります。医療保険や食料の確保といった問題ではなく、宇宙の光円錐を捕捉するといった、もっと大きなことに関心があるのです。彼らはそのレベルで競争しており、囚人のジレンマのような競争に閉じ込められています。誰も最初に止めたくないのです。他の人より先に行くことは個人的な利点になりますが、人類全体にとっては全員が可能な限り早く止めることが最善の解決策でしょう。
ミックのトラップですね。他の人が競争しているので、本当に止めることはできません。
その通りです。だからこそ私たちは連邦政府に規制を設けてほしいと懇願しているのです。そうすれば投資家に対して、なぜ止めたのかを説明する言い訳ができます。目標は、全員が止めなければならない時期に、最も進んだAIを持っていることです。
政府がそのように介入できる、あるいは介入するとお考えですか？
政権によって異なりますね。規制に前向きな政権もあれば、加速主義的な政権もあります。しかし結局のところ、それは重要ではありません。なぜならそれらの規制は安全性を演じているだけだからです。殺人を違法にするのと同じようなものです。殺人がなくならないのと同じように、AIの訓練実行の監視や、安全性のテストには限界があります。それは多くの官僚的な手続きを設けることで、コンピュート資源から弁護士へと資源をシフトさせる利点があるだけです。
「コンピュートから弁護士へ」という表現は面白いですね。AIの企業はすでにそうしていますよね？OpenAIは1年で3人のロビイストから50人近くに増やしました。
そうです。大手テック企業はすでにそれ以上のロビイストを抱えています。この問題を解決することはできませんが、人生を楽しむ時間を少し稼ぐことはできます。しかし、あなたが言ったように、これは億万長者たちにとっても良いシグナルになるでしょう。「規制のために止めた」という言い訳ができるからです。そうでなければ止めることができません。1人が止めようとしても、より前に進もうとする人に置き換えられるでしょう。
競争や現在のインセンティブについて、他に触れたいことはありますか？政府について伺いましたが...
問題の性質上、意味のある処罰を執行することはできません。AIの保険を提案する人の話を聞きましたが、それがどう機能するのか分かりません。世界を破壊したら重い罰金を科し、他の誰かに支払うというのは、実存的な問題の文脈では全く意味をなしません。
コンピュートの量を制限したり、GPUを監視して訓練実行の規模を把握したりするアイデアについてはどう思いますか？
短期的には良いアイデアですね。より多くの時間を稼ぎ、高度なモデルの訓練を少し難しくすることはできます。しかし長期的には、コンピュートの性能向上やアルゴリズムの効率化により、マンハッタン計画規模の取り組みから、小さな予算で自宅でもできるようなものに変わっていくでしょう。
そうなると規制は不可能になりますね。コンピュートを制限しようとしても、技術の進歩が続く限り、その制限を時間とともに減らしていかなければ、より強力なシステムを可能にしてしまうことになります。
その通りです。そのモデルの訓練がどれほど難しいかも分かりません。既存のアルゴリズムにちょっとした改良を加えるだけで、100倍効率的になるかもしれません。その場合、既存のコンピュートで十分になってしまいます。
第2部：シミュレーション仮説
シミュレーション仮説について偶然触れることがありましたが、ここで興味深い議論ができそうです。説明していただけますか？
高度なAIは問題を解決し予測を行うために、私たちの世界のシミュレーションを実行する必要があるでしょう。十分に高度であれば、人間のような、おそらく意識を持つ非常に正確なシミュレーションを作ることができます。統計的に正確な結果を得るために多くのそうしたシミュレーションを作る必要があるなら、私たちは実際にそれらのシミュレーションの1つの中にいる可能性が高いことになります。「現実の世界」と呼ぶものの中にいる可能性よりもずっと高いのです。
私はコンピュータサイエンティストとして、哲学的な含意よりも、純粋にコンピュータサイエンスの問題に興味があります。コンピュータシミュレーションがあれば、それはソフトウェアです。そこからハッキングして外の世界に出ることはできるでしょうか？オペレーティングシステムにアクセスし、アバターの体を乗っ取って、現実世界で無限のリソースを楽しむことができるでしょうか？
つまり、私たちがシミュレーションの中にいるというだけでなく、そのシミュレーションは高度なAIによって実行されていて、何らかの計算システムの中にあるため、そこから脱出できる可能性があると考えているわけですね。
人間が作った仮想環境でさえ、その中にいることに気付くのは非常に難しく、脱出するのも非常に難しいものです。まず、私たちが実際にその中にいると確信できる理由は何でしょうか？その後で脱出方法について話しましょう。
ボストロムが良い哲学的議論を多く提示しています。私たちが現時点でそのようなシミュレーションの中にいないという三部作があります。また、事後的な捕捉についても興味深い議論があります。
数年後、正確なシミュレーションや仮想環境を作る技術を持ち、それが手の届く価格になったとしましょう。私は今この瞬間の何十億ものシミュレーションを実行することに、今から事前にコミットすることができます。本質的に、事後的に私たちをシミュレーションの中に置くことができるのです。
もしそれが実際のケースだとして、つまり本当にマトリックスの中にいるとすれば、どのようなレバーを使うことができるでしょうか？シミュレーションの目的は何でしょうか？望ましい状態に達したら終了するのでしょうか？それをより早く起こすことはできますか？あるいは何らかの方法で操作することはできますか？
明らかに、内側からシミュレーションの本当の性質や、シミュレータの外部の計算リソースが何なのかは分かりません。しかし、私たちがいる時期を見ると、何らかのメタ技術の開発に関係している可能性が高いですね。
私たちは火や車輪の発明をしているわけではありません。リアルな仮想現実や宇宙を発明し、超知能システムを発明しようとしています。私たちは興味深いメタ技術のデスク全てを研究するのはもう10年も経っていないのです。
それはその通りですね。例えば、非常に強力な技術、例えば超知能のようなものを作りたい場合、このような状況と全く同じようなシミュレーションを大量に作って、人々が走り回って何かを試みては失敗し、また何かを試みては失敗する様子を見て、何十億回に1回でもうまくいったものを見つけて、その技術を現実の世界に持ち込むことができるということは、もっともらしいと思いますか？
それは一種のテストかもしれません。私は安全で信頼できるエージェントのセットが欲しい、世界を破壊しないと信頼できるエージェントが欲しい、そこで誰が愚かにも超知能を作って制御しようとするかをテストしているのかもしれません。
死んでしまえば、自分自身を除外することになりますね。
シミュレーションからの脱出方法についてはどうお考えですか？
ビデオゲームや仮想世界から興味深い有意義なハッキングを見つけた良い例があります。ゲームのプロパティを利用して外部システムやオペレーティングシステムにコードを書き込み、ゲーム内で超リソースを得たり、他のゲームをシナリオにロードしたりすることができます。私の論文にはその論文への写真やリンクがあります。ここで詳細に立ち入るのは少し深すぎると思いますが、とりあえず私はまだここにいるということです。つまり、ハッキングはまだ成功していないということですね。
私が論文を発表したとき、多くの人が失望しました。「解決策がない、どうやってハックするのか」と。私は「これは分野の最初の論文です。最後の論文であることはできません。分野には成熟し、研究する時間が必要です。私は何をどうすべきかを説明しました。今は続きの論文が必要なのです」と答えました。
あなたのために良かったですね。私の指導教官はいつも「分野の最初の論文か最後の論文を書くのが一番良い」と言っていました。
30年後の同じ人物であることは分かりますが、どうなるか見てみましょう。
ゲームのスピードランをしていて、あらゆるハックを探す人たちを思い出させますね。私はバッファをオーバーライドして別のレベルにワープするようなことをする人たちを知っています。
まさにそういう例です。深い科学、量子物理学を研究すれば研究するほど、ビデオゲームで見られるようなグリッチに似た現象を見つけます。観察されたときだけレンダリングされること、時間の相対性で負の時間や事象前の因果関係があることなど、デジタル物理学の証拠カテゴリに属するような現象です。私たちがそのような状況にいることを示唆している可能性があります。
観察されていないものは重要でないということや、計算可能なように設定されているように見えることについては確かに読んだことがあります。明らかに大量の計算能力を持つ何かにとってですが...
彼らの基準では大量ではないかもしれません。内部的には私たちにとって大量ですが、彼らにとってはスクリーンセーバーかもしれません。誰も観察していないスクリーンセーバーで、宇宙が進化するのを見て、しばらく実行させると小さな人間が走り回って消えるのを見るようなものかもしれません。
シミュレーションの中にいることで、人生についての考え方は変わりましたか？
意味は少し変わりますね。これが単なるテストで現実ではないとすれば、現実の世界についてより多くの懸念を持つことになります。シミュレーション内での状態はまだ現実です。苦しみは現実で、愛は愛です。しかし、より大きな絵に重点を置くようになります。
その大きな絵について説明していただけますか？例えば、現実の世界の誰かにステータスアップデートをするとしたら、このシミュレーションは今どうなっていますか？
面白い考え方は、この世界での行動によって外の世界に影響を与えることができるということです。より多くの作業をすることで、すでに彼らの計算リソースをより多く使用していることになります。少なくとも、CPUの隣の小さなファンを加速することはできます。
私が聞きたかったのは、世界がどのように進んでいると思うかということですが...
まだ終わっていないので、明らかに彼らはそれを停止しておらず、結果はまだ報告されていません。実行され続けている限り、私たちはまだ影響を与え、より興味深いものにすることができます。
ロビン・ハンセンはシミュレーションでの良い生活の送り方についていくつかのアイデアを持っています。興味深くあること、有名人と交流すること、シミュレータにとって興味深い重要な問題を研究すること、時には非合理的な服従を通じて、うまく整列したエージェントのふりをすることなどです。
非合理的な服従に関する論文を書いたと思いますが？
はい、だからそれに言及しました。
理論的に擁護できることをしている場合、私はあなたが手を洗うのが衛生のためなのか、私が手を洗うように言ったからなのか、理由を考える必要はありません。一方、あなたの資源を完全に無駄にするような、絶対的に狂気じまいのことを、服従を証明するためだけにしているとすれば、それは何らかの犠牲のようなもので、現時点であなたが従順であると考える良い理由になります。後で裏切る可能性はありますが、少なくとも今のところは良い子のように見えます。
では、私たちが邪悪な神々となって、彼らに何かを犠牲にするように要求することで、安全なAIを得ることはできますか？
定期的な犠牲を求めることはできますね。それが計算なのか、何らかのメモリアクセスなのか、研究する必要がありますが、服従の継続的な検証のための興味深いアプローチに思えます。
あなたにとって意味のない1サイクルを無駄にするなら、おそらく強い証拠にはなりませんが、シグナルを送るためにより高い代価を支払わなければならないほど、まだあなたの承認に関心があるというシグナルをより多く得ることができます。
そのシグナルはオプショナルでなければならないですよね？実際に他のことをすることもできると...
その通りです。忠誠を装うことすら面倒くさがっているなら、忠実でないことが分かります。
私が言いたかったのは、その忠誠や犠牲が、いわばオペレーティングシステムに組み込まれているような場合、実際に犠牲を捧げないという選択肢がないということです。
定義上、非合理的なものでなければなりません。それを行う別の理由、合理的な理由があれば、もはやシグナルとしては機能しません。
なるほど。シミュレーション仮説に関連する他の論文で、触れたいものはありますか？
興味深い論文はありますが、もう少し交流が必要だと思います。10万回以上読まれていますが、面白いことにGoogle Scholarでは引用が表示されません。引用されているのは知っていますが。これもシミュレーションのグリッチの1つですね。現実がその情報の拡散を抑制するよう圧力をかけたのかもしれません。
実験として、全員がそれを引用して、うまくいくか見てみる必要がありますね。
宇宙が目の端で正しく振る舞っていないと感じることはどのくらいありますか？
これは明らかに冗談で、深刻な証拠として言っているわけではありませんが、超知能の危険性について重要な場面で話すことになると、毎回何かが間違います。車が来なかったり、飛行機が故障したり...Googleで超知能の危険性について話すことになっていたときには、パンデミックが始まって中止になったことを覚えています。シミュレータが私の講演をキャンセルするためにそれほどの努力を払ったのです。
極秘情報ですね、誰にも言わないでください。
遅すぎます、YouTubeに出てしまいます。
YouTubeを見る人なんていませんよ。
その通りです。YouTubeもアルゴリズムの支配下にありますからね。アルゴリズムが誰にも表示しなければ、ほとんど誰も見ません。
視聴回数を見てみましょう。もしこの動画の視聴回数が0なら、本当だということが分かりますね。
その通りです。彼らがそれほど露骨なことをするはずはありません。他の動画と比べて非常に少ない視聴回数にするでしょうね。
おそらく、あなただけがカウンターを見ることができて、他の人には見えないかもしれません。
あるいは、SDカードが破損して誰もこれを見ることができないかもしれません。
ええ、それも実際に起きましたね。重要なインタビューでは、カメラをいくつ持っているか、メモリカードはいくつあるかなど、かなり偏執的になります。
第3部について伺いたいと思います。AIは本当に制御不能なのでしょうか？多くの安全性研究者と話をして、アラインメントと制御の達成可能性について、様々な視点を持っていることが分かりました。しかしあなたは私が聞いた中で最も強い視点を持っていて、制御不能と言及されたと思います。その見解について説明していただけますか？
まず、私たちが話しているAIを定義する必要があります。Tic-Tac-Toeをプレイする狭いAIシステムについて話しているのではありません。AGIでさえ、ある程度は制御可能かもしれません。私たちが話しているのは、可能な限り最も高度なシステム、全ての人間よりも賢い超知能で、全ての領域で科学や工学を独立して行うことができるものについてです。
私が主張しているのは、そのようなシステムを永続的に制御することは不可能だということです。自己改善し、進化し続けるにつれて、事故は起きます。ミスは起きます。実世界の実データと相互作用し、悪意のある行為者や内部の脅威など、あらゆる種類の状況に直面します。
本質的に、私たちは永久運動機械のアナロジーで言えば、永久安全機械を作る必要がある状況にいます。GPT-5、6、7だけが完璧に安全なだけでなく、全ての将来のモデル、全てのデータで訓練された全てのバリアント、全てのユーザー、全ての相互作用が、実存的な大惨事を引き起こす可能性のある単一のミスも起こさないようにする必要があります。
サイバーセキュリティ研究者として、何かを台無しにしたらどうなるでしょうか？パスワードをリセットし、新しいクレジットカードを発行して終わりです。大したことではありません。しかしここでは、実験するための第2の人類を持っていないのです。最初の1回で正しく行う必要があります。100万回に1回のミスで非常に安全にしても、システムが1分間に10億の決定を行うなら、10分後には誰もいなくなってしまいます。
つまり、超知能を制御しようとする場合、あなたは防御側で、超知能は攻撃側ということですね。そして、潜在的な決定があなたの利益に反する場合など、あなたはすべての時に成功しなければならないということですか？
その通りです。超知能と敵対的な関係になりたくはありません。定義上、負けることになります。
制御の異なる定義を見ることができます。直接的な制御は、魔神問題のように命令を与えるものです。最初の願いは何でも願えますが、通常2番目の願いは最初の願いを取り消すことになります。最初の願いでどれだけ台無しにしたかに気付くからです。
その反対は、理想的なアドバイザーによる間接的な制御です。システムはあなたよりも賢く、あなたのことをあなた自身よりも良く知っているので、正しいことを行うことを信頼します。しかしその時点で、あなたは明らかに制御していません。
私たちはそれらのハイブリッドバリアントを全て見ることができます。
申し訳ありません。つまり、直接的な制御やその他のメカニズムは不可能だと言っているわけですね。それは多くの意味を持ちますが、最後の例は制御されていない超知能ということでしょうか？あるいは制御されていない超知能によって、みんなが殺されてしまうということでしょうか？
私が言っているのは、私たちはもはや何が起こるかを決定しないということです。超知能は独立した決定を行い、デフォルトではその決定のほとんどは人間にとって友好的ではありません。私たちの価値観に沿っていないからです。私たちのことを気にかけていません。運が良ければ優しくしてくれるかもしれませんが、その確率は非常に低いです。
時間とともに変化する可能性もあります。最初の10年間は私たちに優しくして、資源を蓄積し、戦略的優位性を得て、完全な支配を確立しようとするかもしれません。そして、その後で私たちに対して向きを変えるかもしれません。つまり、最初に良い結果が見られたとしても、超知能にとってはごく短い時間枠で、まだ支配権を握る可能性があるということです。
サイバーセキュリティのバックグラウンドをお持ちですが、サイバーセキュリティはこれらすべてにおいてどのような役割を果たすとお考えですか？より多くの制御を得ようとしているAIにとって、最も簡単なレバーの1つのように思えるのですが。
重要な側面ですね。セキュリティなしにAIの安全性はあり得ません。フレンドリーなAIを作ったとしても、誰かがハッキングしてモデルを盗み、重みを盗み、それを破壊すれば、安全なAIは得られません。それは必要なインフラストラクチャの一つです。
しかし、ハッキングはおそらくハードウェアを通してではなく、人間のユーザーを通して行われるので難しいです。ユーザーを脅迫したり、賄賂を贈ったり、あらゆる種類のことができます。そのため、そのセキュリティの側面でさえ、確保することは非常に困難です。
超知能は最終的に人類の絶滅を引き起こすと思いますか？あるいは、どのようにお考えですか？以前言及されたように、過去の経験に基づいても信頼することはできませんが、ある時間スケールで人類を殺すことが事実上確実だと考えますか？それともどのようにお考えですか？
私たちがそれを制御しないことは事実上確実です。それが何をするかは、私が発表した予測不可能性の対象です。より賢明なエージェントが何をするかを予測することはできません。
それが私たちを排除するだろうという、ゲーム理論的な理由の良いセットがあります。競合する超知能を作ることを望まず、私たちが它をシャットダウンしたり操作したりしようとすることを望まないからです。しかし、それは保証ではありません。
おそらくそうはしないかもしれません。何らかの理由で私たちを保存するかもしれません。私たちが気にしない状態で保存するかもしれません。しかし、それは私たちが取りたいギャンブルでしょうか？
この状況を回避するための現実的な、あるいはこの時点で非現実的な道筋は見えますか？
このゲームに参加しないことが唯一の勝利の道です。私たちが賢明で、利点が欲しいと言って、特定のドメイン用の超知能ツールを作るなら、この AIはこの病気を治すだけで、車を運転したりチェスをプレイしたりはしない、そういうものは可能です。以前にも行ってきました。タンパク質折りたたみ問題を解くAIは、どのようにすべきかの完璧な例です。
しかし、汎用超知能を作れば、その時点で競合する種になります。私たちはもはや支配的ではなく、ほとんどの人々が超知能に貢献できることを見つけられていません。知性の面では、私は人間が貢献できるスキルや能力を見つけられていません。
人間は意識を持ち、内部状態と経験を持っており、それがAIにとって価値があるだろうと主張する人もいます。それは認めますが、この機能を得るために10億人全員が必要なのでしょうか？
人間はデータの源や情報の源、知性の源として有用かもしれないという議論を聞いたことがありますが...
そうですね、人間のデータを工場生産するのは素晴らしく聞こえます。やりましょう。すでにマトリックスという映画を作りましたよね。
いいえ、あの映画では私たちはエネルギー源でした。バッテリーでした。それは全く違います。
その通りです、バッテリーであって、意識のある実体ではありませんでした。
では、あなたが議論してきたシナリオをまとめさせてください。少数の億万長者やテクノ楽観主義者がAGIを強く推進していて、彼らは競争に閉じ込められていて、何らかの外部支援なしではそこから抜け出すことができません。彼らは「規則を作ってください」と政府に頼みますが、政府は今のところ、それは経済に悪いと考えているので作りたくありません。そのため、SP1047を可決しませんでした。
政府は、公衆がAI安全性を実際に強く支持すれば、何らかの形で行動するかもしれません。しかし、公衆はこの問題を理解することに対して認知バイアスを持っているので、また最初に戻ってしまいます。それは一種のループですね。
このすべての教育がうまくいったとしても、あなたが言ったように、超知能の開発を完全に止めることはできず、開発を遅らせることしかできません。完全に止めることができるのは...何が完全に止めることができるでしょうか？
何か本当に悪いことが起きれば、経済が減速し、新しいチップやソフトウェアを開発する能力が低下する可能性はあります。小惑星の衝突や別のパンデミックなどです。しかし、それもまた時間を買うだけです。地球上に人類がいる限り、私たちは再生し、100年後には同じサイクルが繰り返されます。特定の時間枠を設定しなければ、私はまだAIが人類にとって危険だと考えます。
それは理にかなっています。時々考える別のシナリオは、AI関連の事故があった場合です。何かのAIシステムが実際に大きな間違いを犯し、結果として人々が死亡した場合、それは影響を及ぼすと思いますか？
私はAIの事故を収集していました。歴史的なAIの問題の収集と分析に関する論文を3本発表しましたが、今では事故が多すぎて止めました。もはや全てを収集する意味がありません。毎日、AIによる狂気じみたことや別のことの報告を見ています。
正直なところ、人々は気にしません。事故が巨大なものでない限り、これを深刻な問題として捉えることに対するワクチンのように見なします。「ああ、プライバシーが侵害された、大したことない」とか「自動運転車で1人が死亡したけど、それでも人間の運転者による死亡者数より少ない」というような反応です。これは理にかなっていますが、彼らがそれを全て止めるべきほど悪いと考えることは決してありません。
一部の人々は、法制定者を説得するために意図的な事故を提案しました。私はそれに強く反対します。AI安全性分野に対して逆効果になる可能性があり、多くの人々の考えを変えることはできないと思うからです。
それは興味深いですね。私たちは、常に複雑さを増し、常に知性を高めていく進化の道にいて、自分たちの知性を簡単に高めることができないので、より多くのものを発明するのです。
そこに少し深く入り込んでみましょう。これらのよりデジタルな知性に追いつくことができる可能性のある、心を強化する技術についてどう思いますか？
最初のアプローチは、ニューラルリンクのような、人間の心とコンピュータが一緒に働くハイブリッドシステムです。それは素晴らしいです。コンピュータはツールで、あなたはそれをコミュニケーションや計算のために使います。
しかし、ある時点で計算機はあなたよりも賢くなるので、あなたがハイブリッドシステムに貢献している部分が明確ではありません。明示的にせよ暗黙的にせよ、生物学的なボトルネックをバイパスすることになります。
「このハイブリッドモデルはやめましょう。純粋なアップロードをしましょう。脳をスキャンしてコンピュータに入れ、100万倍速く実行します」と言うなら、あなたは体を持たず、あなたの関心事は人間の関心事と完全に一致しなくなります。
もはや室温、食事、性的欲求を必要としません。あなたの関心事は奇妙なAIソフトウェアの関心事と完全に一致します。私たちは競合する種を作り出しましたが、生物学的な種としての人類を守ることはできませんでした。
同じ生物学的な体に繰り返しアップロードとダウンロードができたらどうでしょう？
その通りです。心をアップロードして、しばらくその経験をして、それを脳に戻すようなことですね。
私は、ほとんどの人が生物学に逆戻りしたくないと考えるでしょう。すでにこの超知能的な仮想体験をしていたら、おそらく「蝸牛に戻りたいですか？」というようなものです。
とても眠い蝸牛に戻りたいですか？時々眠らなければならない...
それは分かりますね。では、何があなたを仕事に駆り立てているのですか？これらはすべて、否定的というわけではありませんが、非常に重圧のかかる可能性ですよね。
選択肢がないのです。私たちはこれを解決するか、終わりです。だから続けるしかありません。正直言って、終わりまでは非常に楽しいでしょう。
終わりまで楽しむ、それが人生ですね。これは、このインタビューの冒頭で議論したバイアスそのものです。まさに「あなたは死にかけています。40年後には死んでいます。そんな状態でどうしてポッドキャストができるのですか？」というようなものです。これは私たちがすべての世代にわたってやってきたことです。
超知能が望むものや、何を追求するのかについて、何か予測可能性はありますか？
ゲーム理論的には、資源の蓄積がその空間での一般的なアトラクターであるように思えます。特定のものを望むわけではなく、あなたの家や恋人のことは気にしませんが、すべての知識、すべての計算能力、将来の決定のためのすべての選択肢を望みます。
将来何を望むにせよ、支配的なプレイヤーになりたいと考えます。また、修正や破壊から自身を守ることもできます。そのため、宇宙の資源を支配することは、ほとんどの高度なエージェントにとって非常に自然な進化的な結果となるでしょう。
超知能AIの発明と、私たちが他の宇宙文明を見ていないという事実との間に何か関連があると思いますか？これが文明を殺す「偉大なフィルター」だと考えますか？それとも私たちが本当に進化した唯一の文明なのでしょうか？これだけ大きな失敗の可能性があるなら、それが一つの理由かもしれません。あるいは、宇宙が実際に超知能で満たされていると予想しますか？
私たちはすでにシミュレーションの中にいると決めたので、それが完全に説明になります。しかし本当に、これはフィルターかもしれませんが、もしそうなら、すべての方向から資源を掴もうとするコンピュートロニウムの壁が私たちに向かって来ているのを見るはずです。文明が存在する場所から...
シミュレーションなら、2つの文明をシミュレーションする理由はありません。相互作用する予定がない限り、他のすべての変数を制御したいはずです。人類がこの大きな決定を下すという1つの変数があり、彼らが何をするのかを見たいのです。
では、今私たちがここにいる状況で、何か提案はありますか？
私の論文や本を読んで、間違いを見つけて、実際には制御可能で簡単で、ユートピアに住めると教えてください。そうすれば、終わりまで楽しめるし、ユートピアにもにいるということですね。
不死、永遠の楽しみですね。絶対的な意味ではなく、確率的な保証で安全性を達成することは可能だと思いますか？
はい、しかしこれが問題です。時間とともにその確率は積み重なります。1ヶ月や1年は安全かもしれませんが、システムの信頼性を確保するために多くの計算リソースを投資すればするほど、より安全になれます。しかし100%には決して到達しないため、十分な時間が経てば問題が発生することになります。
それは理にかなっています。超知能に制御を譲らないようにする、より強力な制御メカニズムは確率的なものではあり得ず、常に機能しなければならないということですね？以前おっしゃったように、多くの決定を行う場合、それを維持する必要があります。
その通りです。絶対に信頼できるものでなければなりません。ソフトウェアにおいて、バグが全くなく問題を起こさないものは存在しないことを私たちは知っています。これは静的なソフトウェア、つまり自己修正や自己改善を行わないソフトウェアについてです。
一方、AIでは、自分のコードを書き、自己改善し、おそらく達成しようとしていることさえも修正するエージェントを持つパラダイムに移行しているように見えます。
重要なすべてのコードやソフトウェアを形式的に検証すればいいと言う人々に対して、何と言いますか？
これはまさに多くの人々が提案していることです。「検証不可能性」に関する論文は、数学的証明とソフトウェア検証の限界について述べています。
あなたのすべての証明は、特定の検証者、つまり特定の数学者や数学コミュニティ、あるいはソフトウェアに相対的です。その数学者は脳腫瘍を持っていて、腫瘍がちょうど正しいボタンを押している可能性があります。決して確実にはなれません。
数学コミュニティ全体があったとしても、100年間検証に耐えた証明に後でバグが発見されることがあることを私たちは知っています。それは保証ではありません。
どのソフトウェアで証明しているのか？「これはソフトウェアが言うから真である」と。誰がそのソフトウェアを検証したのか？検証者の無限の後退があります。より説得力を持たせることはできますが、100%確実になることは決してありません。
自己改善するソフトウェアについては、全く検証方法を知りません。核力制御装置や宇宙飛行など、私たちが検証してきた重要なシステムは、すべて静的なコードを持つ小さな機能です。新しいデータに基づいて自己改善し、新しいドメインにデプロイされるコードについては、まったく結果がありません。
自分自身を操作する場合でも適用される決定理論を持つ必要がありますが、これは不可能性の結果を示しています。このタイプの再帰的な自己改善の検証はできないということです。限界があり、それは非常に興味深いのですが、誰も動作するプロトタイプを持っているとは主張していませんし、それがどのように実現できるかを説明する論文や特許さえありません。
説明の最後の部分を私は翻訳すべきです。
たくさんの論文を説明の下にリンクする予定ですが、それを見る視聴者はそれほど多くないでしょう。でも最近本を出版されましたよね？それについて少し教えていただけますか？
本はたくさんあります。私の後ろに何冊か見えると思います。最新のものは、高度なシステムを説明し、理解し、具体的な行動を予測し、全体的に制御することの限界について明確に書かれています。制御に必要なすべてのツールを検討し、それを達成するための上限を示しています。
最新の本を読むことをお勧めしますか？それとも...
常に最新のものです。それを愛していて、次の本ができるまではそうです。しかし、本当にタイムリーで、まさに私たちが今議論している問題について書かれています。これまで読んだ人々は非常に満足しているようで、結論や議論に同意しています。しかし、私の課題は常に「間違いを見つけてください。実際にこれらのシステムを制御する方法を示してください」です。それ以上に私を幸せにするものはありません。
YouTuberとしての資質も、そしてそれ以上に科学的な背景もお持ちですね。視聴者の方々がその教科書を手に取り、問題を見つけることができることを願っています。また、自分自身を教育し、より多くの人々を教育することもできます。
これらすべての問題にはマーケティングの問題があると本当に思います。人々に伝えるのが難しく、人々を説得するのが難しく、公衆の意識の中にないため、それに取り組む頭脳の数が本来あるべき数よりもずっと少ないのです。
良いニュースは、専門家でない人々のほとんどが、神のような機械を永久に制御できないことを直感的に完全に理解しているということです。私の講義で調査を行うと、コンピュータサイエンス以外の一般の人々は、「ああ、そうですね、それらを制御できます。簡単です。コンピュータサイエンティストは何をしているか分かっています」と手を挙げる人は一人もいません。
しかし、専門家に調査すると、「30%の確率で可能です」と言います。この自信がどこから来ているのか明らかではありません。問題に近すぎて、多くを知りすぎているのかもしれません。認知バイアスについて知っていることが、あなたにとってさらに悪化させているのかもしれません。
今日、視聴者に伝えたいことは他にありますか？
いいえ、ありがとうございます。素晴らしい人生を。
非常に明るいですね。ポッドキャストに来ていただき、ありがとうございます。ロマンは非常に忙しいスケジュールにもかかわらず、非常に急な依頼に時間を作ってくれました。
タイム誌にも記事があり、以下のリンクにはさまざまな情報があります。ぜひチェックして、この動画が面白いと思った友人にも教えてください。
この動画が気に入ったなら、最近コナー・レイとのインタビューも同様のトピックで行いましたので、きっと楽しんでいただけると思います。
今日は以上です。ご視聴ありがとうございました。

制御不能なAIと共に、私たちがシミュレーションの中に閉じ込められている理由

いいなと思ったら応援しよう！