Where I agree and disagree with Eliezer 和訳

2023年9月28日 11:58

前置き

Paul Christiano氏と呼ばれるAI alignment（人間の価値観にAIを沿わせる）に取り組む非営利の研究組織Alignment Research Centerを運営しているAlignment研究第一人者とEliezer Yudkowsky氏と呼ばれるAGIによる人類存亡リスクの提唱者として最も有名なこの分野の草分け的な方への意見をまとめた以下のAlignment Forum記事の和訳となります。

主にPaul Christiano氏がEliezer Yudkowsky氏の極端なAI Alignmentに対する見方に対して中庸的な態度で批判している記事となっています。

Paul Chrisitiano氏のプロフィールは以下

Eliezer Yudkowsky氏の対談動画やPaul Chrisitiano氏の対談動画を和訳しているのでご興味ある方は見てみてください。

今回の記事は主に以下のEliezer Yudkowksy氏の記事「AGI Ruin: A List of Lethalities」への反応をChristiano氏がまとめている記事となります。

上記記事については以下和訳でまとめているので見てからの方が読みやすいかと思われます。

Paul Christiano 氏がEliezer Yudkowsky 氏の意見に同意する点と同意しない点についてそれぞれ述べていっています。最初に和訳まとめからみたほうがわかりやすいかもしれません。

以下和訳

・同意できる点（Yudkowsky氏の文の引用ではなく、Chrisitiano氏の文章）

強力な AI システムは、意図的かつ不可逆的に人類の力を奪う可能性が十分にあります。これは、破壊的な物理テクノロジーで全員を殺すよりもはるかに簡単な失敗モードです。
壊滅的なリスクを伴う AI システムが間もなく存在する可能性があり、そのようなシステムが毎年重大な存続リスクをもたらすまでは、この事実について強いコンセンサスが得られない可能性があります。必ずしも「火災警報器(重大な事故に繋がる予兆)」があるわけではありません。
たとえ強力な AI システムによるリスクについて合意があったとしても、世界がまったく非生産的な方法で対応する可能性は十分にあります。起こり得る破滅の物語を見て、「私たちはそんなことは起こらない」と言うのは希望的観測です。人類は、特にそれが目新しいものであれば、非常に基本的な課題でも台無しにしてしまう可能性が十分にあります。
AI の調整を支援することを目的としたプロジェクトの多くは、主要な問題については進展しておらず、壊滅的な結果のリスクを大幅に軽減することはできないと思います。これは、人々が最も扱いやすい研究に惹かれ、それがどのような問題に役立つかについてあまりうるさく考えないことに関係しており、特に長期的な将来に対する懸念のレベルが低いことにも関係しています。全体として、位置合わせの失敗による存続リスクに最も関連する技術的問題に効果的に焦点を当てている研究者は比較的少数です。
AI が既存の紛争をどのように形成し、権力をシフトさせるかについて議論することにもっと多くの時間を費やすべきという強い社会的および政治的圧力があります。このプレッシャーはすでに現れており、改善する可能性はあまり高くないようです。エリーゼルの言葉は「最後の脱線」は誇張的だが的を射ている。(->あまりよく意味がわからず、AGIの純粋な存亡リスクよりも政治的な人間の紛争に重きが置かれがちということだろうか。)
事故のリスクについて考えるときでさえ、人々の心は、現実に存在する可能性がはるかに低い「より現実的で、SF的ではない」リスクの方に向かうよう（そして、私は時々、あまり現実的ではないと考える）。実際に既存の AI システムが存続リスクを引き起こすまで、この力関係は変わらない可能性が非常に高い。
AI の大惨事は、抵抗する機会がほとんどなく、AI システムが人間の能力を永久に剥奪する突然の「クーデター」のように見える可能性が十分にある。人々は一貫して、このリスクを、世界についての自分たちの物語によりよく適合する、より退屈な物語に切り捨てている。人間がAI システムにキラーロボットを制御させることで AI クーデターが加速する可能性は十分にあり、「キラーロボットがあらゆる場所に存在し、AI がすべてを制御する」と「AI が研究開発にのみ関与する」との間の時間軸の違いは、1 年未満であるように思われる。
より広範な知的世界は、AI システムが「世界に大きな影響を与える」状態から「認識できないほどに変容した世界」になるまでにかかる時間を大幅に過大評価している。これは数十年ではなく数年になる可能性が高く、数か月になる可能性も実際にありえる。これはアライメントをより困難にし、私たちが集合的に準備ができているものとは思えない。
人類は通常、失敗を繰り返して修正することで技術的な問題を解決する。。しかし、アライメントを解決しなくても価値のある AI 製品を構築することはおそらく可能で、現実は手遅れになるまでアライメントの解決を「強制」することはなく、これは、いくつかのAIアライメントに関する最高レベルの質問について、経験的なフィードバックループではなく、（通常の科学とは異なり）慎重な推論に異常に依存しなければならないケースのように思える。
AI システムは最終的には非常に超人的なものになるでしょうし、おそらく人間のレベル付近に強い技術的ハードルは存在しないでしょう。既存の AI の進歩速度を推定すると、弱い AI システムと非常に強力な AI システムの間にはそれほど多くの時間はなく、AI の貢献はごく少数の知的作業から数年のうちに大多数になる可能性が非常に簡単にある。
信じられないほど強力で調整されていない AI システムがどこかのサーバーファームで実行されている場合、人類がその将来に対して有意義な制御を維持できる可能性はほとんどない。
「強力なAIシステムを構築しない」は難しい政策問題であるように見え、ある種の地政学的な調整が必要であり、利害関係が明確であり、離反への圧力がはるかに小さい場合でも、失敗することがよくある。
新しい問題のリスクが非常に大きいときに、人類が必ずしも「挑戦に立ち向かう」とは私は期待しません。2019年、私はこれについて五分五分でしたが、新型コロナウイルス感染症の経験により私の自信はさらに低下させた。
おそらく、SGD で最適化できる、任意の賢い AI が可能な限り最適化できるような、物理的に実装された報酬関数はありません。(私は、エージェントのトレーニングと並行してより賢くなる報酬関数に対してのみ RL が実行されるアプローチについて最も楽観的です。)※現状の強化学習だと賢くすることはできるが、アライメントさせることは難しいということだろう。
特定の報酬関数を最大化するように AI をトレーニングしても、報酬を最大化するために内部的に「動機付けられる」AI が一般的に生成されるわけではありません。さらに、AI が世界に対する影響力を維持するには、損失を最小限に抑えることが重要な戦略であるため、あるレベルの能力では、AI に対する非常に幅広い動機が学習分布での損失を最小限に抑える動作につながる。
AI システムにとって、「一般的に親切である」または「人間を助けようとする」などの行動を学習するよりも、環境の適切なモデルとその行動の結果を学習する方が堅牢です。たとえ AI が「もし私が親切にしようとしていたらどうするか」からなるデータを模倣していたとしても、一般的な親切な習慣を吸収するよりも、最終的にはそのデータを生成する実際の物理的プロセスを模倣することを学習する可能性が高いでしょう。そして実際には、私たちが生成するデータは完璧ではないため、「損失を生み出す物理的プロセスを予測する」ことが SGD によって積極的に選択されることになります。
「まあ、希望はあると思ったほうがいいだろう」などと言って、何らかの形でアライメントが非現実的に容易な、ありそうもない特定の世界に住むべきではありません。たとえ調整が簡単に終わったとしても、それが簡単であるという間違った予測をしてしまう可能性がある。物事が運命づけられているように見える場合、実際には、混乱して予測が難しい世界で幸運を利用するためのより一般的で堅牢な戦略として、成功の対数確率を最大化しようとする方が良いでしょう。
AI を調整するための現在の計画は、多くの反復と変更を行わずに機能する可能性が特に高いものはありません。現在の状況は、大まかに言うと「調整が実際の問題であることが判明した場合、それについて多くのことを学び、アプローチを反復的に改善することになるだろう」ということです。問題が深刻ですぐに現れる場合は、もっと前に明確な計画を立てたほうがよい。それでも適応して学習する必要があるが、紙の上でうまくいきそうなものから始めると、窮地に陥ることになる。
他の分野の研究課題の多くは、扱いやすさや手の届かないところにあるものを選択しています。私たちは、進歩できるベンチマークを選択したり、既存の手法を使用して適切に設定され、取り組みやすそうな理論的問題に取り組んだりします。アライメントはそのようなものではありません。それは重要な問題として選ばれたが、ゲームが「公平」であること、そして問題が解決可能であることを保証する人は誰もいない。

・同意できない点

エリーザー氏は、「最初の『重要な』試行で調整を正しく行う必要がある」と「重要な試行の前に、実験や失敗から調整について何も学ぶことはできない」との間でよく曖昧になります。この区別は非常に重要であり、私は前者には同意しますが、後者には同意しません。実験や失敗から学ばずに科学的問題を解決することは、非常に困難です。しかし、私たちは実験や試行錯誤からアライメントについて多くのことを学ぶことができるでしょう。何が機能するかについて多くのフィードバックを得ることができ、より伝統的な研究開発手法を導入できると思います。私たちはアライメントの失敗に関するおもちゃのモデルを持っています。まだ満たしていない解釈可能性の基準があり、まだ答えられない理論上の疑問があります。違いは、現実が強制しないことです。私たちが問題を解決したり、どの例えが適切であるかを明確に教えたりしてくれるので、調整を解決せずに AGI の構築を進めていくことが可能です。全体として、この考慮は制度的問題を大幅に困難にするように見えますが、科学的問題にはそれほど大きな影響を与えません。
エリーザー氏は、ナノテクノロジーを容易に構築し、人間を決定的に圧倒することができる AI システムについてよく話し、単一の失敗から急速に展開する破滅のビジョンについて説明します。これは、魔法のように非常に強力な AI を与えられ、それを調整できなかった場合に起こることですが、現実の世界で何が起こるかは非常に低いと思います。ナノテクノロジーで人間を決定的に圧倒できるAIシステムができるまでに、もっと退屈な方法で人間を殺すか、あるいは人間の研究開発の状況を根本的に進歩させる別のAIシステムができているでしょう。より一般的に言えば、エリーザーの破滅物語の映画的世界観は私にはうまくまとまっていないように思えますし、水面下で AI 開発のより現実的な全体像があるのかどうかもわかりません。
重要な要素の 1 つは、AI システムが後で問題を引き起こすのを待っているため、AI システムが大きな技術的貢献を避けたり、その能力の範囲を明らかにしたりすることを避けるシナリオをエリーザー氏がよく想像していることのようです。しかし、印象的に見えることを実行するように AI システムを常にトレーニングしている場合、SGD は、印象的に見えることを実行しない AI システムを積極的に選択することになります。したがって、分子ナノテクノロジーを開発できる AI システムが登場する頃には、間違いなく、少々印象に残らないような動作をするシステムが登場していることでしょう。
AI 自体が改善する様子は、人間と同じように研究開発を行う AI システムのように見える可能性が最も高くなります。「AI が自らを改善できるほど賢い」ということは重要な基準ではなく、AI システムは徐々に自己改善を改善していきます。エリーザー氏は、AI システムが他の領域 (アライメント研究を含む) に超人的な貢献をできるようになる前に、AI システムが非常に高速に再帰的自己改善を実行することを期待しているようですが、これはほとんど不当だと思います。エリーザー氏がこれを信じないのであれば、人間が解決する必要がある配列の問題についての彼の議論は間違っているように見えます。
AI を活用した「極めて重要な行為」という概念は間違っているように思えます。調整された AI システムは、調整の研究を進め、調整されていない AI によってもたらされるリスクを説得力を持って実証し、調整されていない AI が爆発的に成長するために使用した可能性のある「フリーエネルギー」を消費することによって、調整されていないAI のリスク期間を短縮できます。不整合な AI によるリスクを大幅に軽減するために、特定の行為が極めて重要である必要はありません。また、単一の重要な行為を探求すると、非現実的な将来の話や、AI 研究所が何をすべきかについての非現実的な絵につながります。
エリーザー氏が議論する「極めて重要な行為」の多くには、AI 研究所が「決定的な戦略的優位性」（すなわち、圧倒的なハードパワー）を達成することが含まれており、それを利用して、強力なコンピューターの可用性を制限するなど、比較的限定的な政策を実施することが挙げられます。しかし、同じハードパワーによって新たな世界秩序を恣意的に決定することも可能となり、既存国家に対する存続の脅威として正しく認識されることになるだろう。エリーザー氏の見解は、決定的な戦略的優位性がこれらの政策目標を達成するための最も現実的な方法であるということのようだ。十分に強力な AI システムの構築には、調整のずれによって世界を破壊するという圧倒的なリスクが伴うという事実。より伝統的な政策影響力よりもこのルートを好むには、政策状況の詳細について極度の自信が必要だと思います。私よりも政府の詳細に詳しい人であれば、その自信は正当化されるかもしれないが、エリーザー氏はそうではないようだ。この種の政策変更が歴史的に見て異例の成功となることに私は同意するが、その可能性は依然としてエリーザーの全体的な生存確率よりもはるかに高いように思われる。逆に、エリーザーは、AI開発者が秘密裏に世界を征服することがいかに難しいか、政府がその可能性にどれほど強力かつ効果的に対応するか、そしてこの種の計画がどれほど有害であるかを大幅に過小評価していると思います。
AI システムが壊滅的に危険になる前に、AI 調整などのタスクを含めてどれほど役立つかについて、エリーザー氏はおそらく間違っていると思います。私たちは、アイデアの生成、そのアイデアの問題点の認識、提案への修正の提案などによって、進歩を有意義に加速できる AI システムに比較的早く近づいていると信じています。そして、これらすべては、AI 研究のペースを 2 倍にすることができる AI システムが登場するずっと前に、小さな方法で可能になるでしょう。AI システムが AI 研究のペースを 2 倍にすることができる頃には、アライメント研究のペースも大幅に加速できるようです。これで問題が解決するわけではないというエリーザーの意見は正しいですが（人間が調整を解決しないのなら、なぜ AI が解決してくれると思うのでしょうか？）、しかし、それは、再帰的な自己改善がどのようにしてすぐにあなたを窮地に追い込むかについての議論を意味していると思います。致死体制は間違っています（AI が調整と能力の両方のスケジュールを加速しているため）。
トレーニング配布以外の一般化について話すとき、Eliezer は一般的にかなりいい加減だと思います。多くの点はほぼ正しいと思いますが、いくつかの推論ステップを経て合理的な結論に達するのはあまりにもずさんだと思います。私はこれらの議論についての本当の議論を見たいと思っていますが、ある意味、エリーザーはその議論を前進させるのに適した人物のように思えます。現時点では、ML の一般化に関する関連する質問は実際にはかなり微妙だと思います。事前にそれらについて多くのことを学ぶことができますが、現時点ではほとんどがわかりません。同様に、収束的なインセンティブと結果主義の深い性質についてのエリーザーの推論は、正しい結論に達するにはあまりにもずさんであり、その結果得られる主張は非常に自信過剰であると私は思います。
特に、既存の AI トレーニング戦略は、低レベルの知能から高レベルの知能への「劇的な」分布の変化に対応する必要がありません。AI を構築する予測可能な方法の中で、知能が徐々に向上するにつれて継続的にトレーニングするのではなく、このような大規模な移行が必要となるものはありません。エリーザー氏は部分的に、AIの性質は大きく変わるだろうと比較的自信を持って主張しているようだが、これはおそらく間違っており、明らかに自信過剰であると私は思う。もし彼が実際に過去 10 年間にわたって具体的な予測を立てていたとしたら、私のような人々によって多くの予測を失っていたと思います。
エリーザー氏は、私が意味をなさないと思う議論と、うまく適用されていないと思われる霊長類の進化との類似性の組み合わせに基づいて、急激な能力の向上を強く期待している。これについては以前にも話しましたが、私は今でもエリーザーの立場はおそらく間違っており、明らかに自信過剰だと考えています。私は、エリーザー氏のより詳細な主張、たとえばハードしきい値についての主張は、離陸速度についての彼の（すでにおそらく定量的に間違っている）主張よりもはるかに信じがたいと思います。
エリーザー氏は、主にこの問題に取り組んだ自身の経験に基づいて、調整の難しさについて自信を持っているようです。しかし実際には、社会がこの問題に取り組む総力はほとんどほとんどなく、MIRI自体はおそらく、既存の研究分野が日常的に解決している問題の大部分を解決することはできないか、大幅な進歩を遂げることさえできないでしょう。したがって、現時点では、その問題がどれほど難しいかはほとんどわかっていないと思います（しかし、それは非常に難しい可能性があり、たとえ簡単だったとしても、解決できない可能性は十分にあります）。たとえば、MIRI が「修正可能性の一貫した公式」を見つけようとして失敗したという事実は、修正可能性が「実行不可能」であるという証拠にはあまりなりません。
エリーザーは、研究がどのように機能するか、そしてどのような進歩の期待が非現実的であるかについて多くの具体的なことを言っています（たとえば、致死性リストにおける明るい楽観主義について話しています）。しかし、これは科学の歴史の理解、現代の機能的な学術分野の動態への精通、または研究経験に基づいているとは思えません。私が最も知っている「科学分野がどのように機能するか」に最も関連するエリーザーの予測は、物理学者がヒッグス粒子の存在について間違っているだろうと誤って予測しており (LW ベットレジストリ)、本物の AI が出現する可能性が高いという見解を表明しています。大規模な業界ではなく、小さなグループからのものです（436ページですが、多くの場所で表現されています）。
エリーザーは、問題を簡単に解決することについての悲観論から、そもそも問題を解決することについての悲観論まで、多くのことを一般化していると思います。あるいは、特定の技術が問題をすぐには解決しないという事実から、その技術に関する研究の有用性についての悲観論まで。研究がどのように進歩するかについては、私はエリーザーの意見に同意しません。また、彼がこのテーマに関して特別な専門知識を持っているとは思いません。Eliezer は、プロジェクトの特定の実装 (トレーニングに解釈ツールを使用するなど) にしばしば異議を唱えます。しかし、研究プロジェクトが成功する可能性が高いかどうかを実際に議論するには、将来の研究者がプロジェクトを機能させるための実装の詳細を選択できるようにする、存在量化子に実際に取り組む必要があります。少なくとも _それには、これらの提案の最も強力な既存のバージョンに取り組む必要があり、それを行っていない場合は (Eliezer のように)、別の種類のアプローチを取る必要があります。しかし、たとえ既存の最良の具体的な提案に取り組んだとしても、その反対意見が、人々が将来さらに詳細を学ぶにつれて克服するのが難しい種類のものであるかどうかを注意深く考える必要があります。これについての一つの見方としては、エリーザーは、問題を引き起こす方法を考える将来の AI システムに適用される存在量指定子については、適切に寛容であるが、将来の人間に適用される存在量指定子を、量的にではなく質的に異なる方法で扱っているようだということです。このリスト全体で説明されているように、私は彼が量的な違いを過大評価していると思います）。
一例として、エリーザーはこの分野の現状についてはほとんど無知であるにもかかわらず、解釈可能性については不当に悲観的だと思います。これは、解釈可能性によって潜在的に達成可能な理解のレベルと、そのような理解の可能な応用の両方に当てはまります。これは難しい問題のようで、多くの人が不当に楽観的であるように見えるという点では、私もエリーザーに同意します。そのため、エリーザーが高い自信を持っているのではなく、適度な自信を持って主張しているとしたら、私は同情するかもしれません。私の知る限り、ここでのエリーザーの立場のほとんどは議論ではなく一般的な直観から来ており、この分野にあまり精通していない場合、それらは説得力がはるかに低いと思います。
初期の革新的な AI システムは、おそらく、より短いフィードバックループを備えた小規模なタスクでトレーニングされ、その後、大規模な共同プロジェクト(最初は多くの人間が関与しますが、時間の経過とともに自動化が進む)のコンテキストでこれらの能力を構成することによって、印象的な技術プロジェクトを実行するでしょう。エリーザー氏が、AI システムが訓練でより安全なタスクを何百万回も実行し、その後「ナノテクノロジーの構築」 ( 致死性リストのポイント 11 ) に安全に移行する可能性を否定するとき、彼は構築される可能性が高い種類のシステムや、人々が心に抱いている一種の希望。
致死性リスト#13 は、事前に AI の問題が多く発生することはないと特に主張しています。エリーザーのこの種の考えはよく見かける気がしますが、それは誤解を招くか間違っているように思えます。特に、AI が「意図的により調整されているように見えるように外部の動作を変更し、プログラマー、オペレーター、そして場合によっては最適化している損失関数を欺く」可能性があるという問題を事前に研究することは可能だと思われます。そして、その問題を解決できなければ他の問題に気付かないのは事実ですが、これは全体的な調整を解決する確率にはあまり影響しません。その問題を解決できなければ死ぬし、解決できれば死にます。その問題を解決したら、他の問題を勉強することができます。
私は、致死性のリストが、整合性の問題を解決する方法についての最も深刻な希望と有意義に関わっているとは思いません。それが必ずしもリストの目的ではないと思いますが、破滅の可能性を評価したり、問題の解決に有意義に貢献したい場合（または、他の人が同様のリストを作成していることに文句を言いたい場合）、これは非常に重要です。
自然選択は、ML トレーニングにとっては比較的弱い例えだと思います。最も重要な対比は、ML トレーニングを意図的に形成できるということです。動物の繁殖はより適切な例えであり、別の、より暫定的な結論を示唆しているようです。たとえば、もし人間が冷酷さとフレンドリーさのために積極的に品種改良されていたとしたら、人間の行動の現在の分布を通じて、彼らはおそらく非常に冷酷でフレンドリーになるように私には思えます。もしその繁殖プロセスが現在最も友好的な人類の中で最も賢い人たちによって慎重に継続的に行われていたとしたら、それは現在の人類の能力をはるかに超えたレベルで破綻するのはもっともらしいと思われる。
エリーザー氏は、人間はAIシステムによって提案された極めて重要な行為（例えばアライメント研究への貢献）を検証できず、そのことが極めて重要な行為を安全に実行することをさらに困難にしていると主張しているようだ。彼の重要な行為という概念が嫌いであることに加えて、この主張はおそらく間違っており、明らかに自信過剰であると私は思います。これは、事実上どの領域でも生成よりも検証の方がはるかに簡単な、ほとんどすべての領域の研究開発における実際的な経験とあまり一致しないと思います。
エリーザー氏は、人間の思考は水面下で行われることが多すぎるため、人間の思考を模倣することで強力なシステムを訓練することはできないと比較的自信を持っています。これはかなりもっともらしいと思いますが、まったく明白ではありません。さらに、「個々の推論ステップをコピーする」と「結果に基づいてエンドツーエンドで最適化する」の間には、中間のテクニックがたくさんあります。過去 5 年間の言語モデリングの進歩は、AI を訓練して人間の思考を模倣することは、変革型 AI の時代に経済的に競争力があり、可能性としては五分五分に近いものになる可能性があるという重要な証拠を提供してきたと思います。エリーザーがここでベイズポイントを失うべきだったのかどうかはわかりませんが、おそらく彼はそうしていたでしょうし、もし彼が実際の予測を私たちに評価してもらいたいのであれば、彼が何か言ってほしかったと思います彼の将来予測について。
これらの最後の 2 つの点 (およびこのリストの他のほとんどの点) は、実際には私の中心的な調整の希望や計画の一部ではありません。調整への希望は、調整への懸念と同様に、分離的なものになる可能性があります。ある意味では、調整を解決しようとしている人間の存在は、問題を引き起こそうとしている AI システムの存在よりもはるかに強力であるため、それらはさらに選言的です (そのような AI は、人間がシステムの重要な部分ですでに失敗している場合にのみ存在します ) 。アライメント）。私の研究は、ほぼすべての要因が不利に働くケースに焦点を当てていますが、より容易な世界からでも多くの生存確率を得ることができると思います。
エリーザー氏は、AI システムは非常に異質であり、物事の同様のプロファイルを理解する (ただしわずかに優れている) か、理解力は低いが次のような他の利点を享受するのではなく、人間が理解できない世界についての多くのことを理解できるようになるだろうと比較的自信を持っているようです。シリアル速度が大幅に向上します。これは非常に不明確で、エリーザーは非常に自信過剰だと思います。AI システムは、たとえ人間の言語は、フィードバックループが非常に短いため、人間の思考の無駄に浅い影です。また、彼らの科学に関する知識のほとんどは、科学的推論と探求の明確なプロセスによって構築され、たとえ彼らの考え方がまったく異なっていたとしても、それが認識可能な方法で人間の科学に進むことになる可能性が非常に高いように思われます。最も重要なことは、AI システムには、世界に変革的な影響を与えることを示唆する大きな構造上の利点 (高速性や低コストなど) があるようです (そして、調整に対する時代遅れの人間の貢献は撤回されます )）世界の大部分についての超人的な理解や考え方のコツを養う必要があるかなり前に、彼らが人間とは非常に異なる能力プロファイルを持っていたとしても、多くの重要な点で依然として人間以下である可能性があります。
AI システムが他の AI システムのコードを推論することは、AI 間の初期の連携にとって重要な原動力となる可能性は低いです。これらの AI システムは乱雑である可能性が非常に高いため、AI システムが自分または他人のコードを推論する唯一の方法は、動作を観察し、人間と同じ種類のツールと推論戦略を使用することです。エリーザー氏は、長期的に重要な考慮事項を特定し、それが短期的には関連すると証拠や議論なしにきっぱりと主張するという一貫したパターンを持っています。エリーザー氏は、この予測パターンはまだ証拠と矛盾していないと考えていると思います。なぜなら、これらの予測は後の時点でしか反映されないからです（ただし、関連性があるにはまだ十分早い）。
AI システムが相互に協力して「抑制と均衡」を弱めるというエリーザーのモデルは、AI システムの協力とインセンティブに焦点を当てているため、私には間違っているように思えます。現実的な提案はほとんどの場合、AI システムのインセンティブに依存する必要はなく、代わりに、たとえば他の AI システムの提案に対して説得力のある異議を唱える AI が見つかるまで検索するなど、競争的にゲームをプレイするシステムを選択する勾配降下法に依存することができます。(注:致死性リストなどで彼が言っていることを誤解している可能性があります) 35; これらは、実際に検討されている調整戦略に取り組むというよりは、人々がインターネット上でランダムに言うことへの反応である可能性があります。しかし、それでも、彼はこれらの議論の比較的弱いバージョンに応答していると思います。）エリーザーは、「AI システムは連携するでしょう」と「勾配降下法を使用して選択できる検証可能なアクティビティは、チェックやチェックとして適切に機能しません」のような文の間で曖昧にしています。バランスがとれています。」しかし、エリーザーの立場は、どちらかのステップが失敗すると失敗する接続詞であり、それらの間を行ったり来たりすることは、議論の実際の構造を完全に曖昧にしているように見えます。
エリーザー氏は、AI システムが極めて重要な行為を達成できるようになるまでに、AI システムは人間を非常にうまく操作できるようになり、たとえば AI 間で議論したり、敵対的なゲームをしようとしたりすることは無意味になると予想しているようです。しかし、人間のような能力を備えた心を想像してみると、彼らは研究開発においても超人的であると同時に、説得においても超人的であり、簡単にどちらの方向にも進むことができるように思えます。さらに、AI が非常に優れているように見える理由はたくさんあります。それが私たちが望むのであれば、研究開発で超人的になる可能性が高くなります。主に研究開発に取り組むために訓練されており、研究開発を促進するために設計されたツールと構造を使用しています。研究開発を進めるために AI 間で大規模な協力が行われていますが、操作は個々の AI によって実行されることがよくあります。議論に勝とうとしているシステム。それに加えて、私はAIシステムの比較優位性が人間による操作ではなく研究開発にあることを、どちらかと言えば非常に弱く期待しています（研究開発は人間には行き渡っていないため）。
生き残った世界には、エリーザーが求めているような意味での計画はないと思います。エリーザー氏の発言によると、成功した「計画」が現実世界でどのようなものであるかについて、彼が明確かつ正確に把握しているとは思えません。この点に関しては、エリーゼルに従う特別な理由は全く見当たりません。
エリーザー氏は、彼の致死リストは他の人には書けない種類の文書であり、したがって彼らが貢献する可能性が低いことを示していると述べています（ポイント41）。それは間違いだと思います。エリーザーの文書は、他の人が優先すべきと期待されるこの分野への特に有益な貢献というよりは、主にレトリックや教育学を目的としていると思います。どのアイデアが「重要」であるかは、何が重要であるかについての客観的な事実というよりは、主にエリーザーの特異な知的焦点の結果であると私は思います。主な貢献は、過去に行われた論点を収集し、それについて暴言を吐くことであり、そのため主にライターとしてのエリーザーについて反映されています。そしておそらく最も重要なことは、より重要な困難についてのより慎重な議論が実際に他の場所で行われていると私が思うことです。たとえば、ARC の ELKのレポートEliezer のリストで挙げられた約 20 件の技術的困難と同じ種類および重大度の少なくとも 10 件の困難について説明しています。それらの約半分は重複していますが、残りの半分は、現実的な調整戦略の中核的な問題により関連しているため、むしろ重要であると思います。[1]

Eliezerの見解に対するPaul Christiano氏の見解

エリーザーは、かなり明確な議論に裏付けられた多くの優れた考察を提起していますが、実際の議論が示唆するものよりもはるかに強力な自信を持った主張を行っています。
エリーザー氏の投稿 (および彼の著作の大部分) は、それほど新しい証拠をもたらしているわけではありません。それはほとんどの場合、演繹的に推論するか、議論の余地のない証拠から物議を醸す結論を導き出すかのどちらかです。これには、エリーザーが歴史的に取ってきたものとは異なるアプローチが必要だと思います（目的がこれらの意見の相違を生産的に解決することであった場合）。
- これらの議論は、慎重に検討したり批判の対象となることができるように、ほとんど公に文書化されていないと思います。エリーザーにそんな気力があるかどうかは定かではないが、エリーザーの立場が重要だと考える人は、それができるほど議論をよく理解する努力をすべきだと思う。
- 私は、エリーザーのような考えを持つ人々は、これに同意しない人々とあまり生産的な関わりを持ってこなかったと思います（そして、そのような関わりが困難になることがよくありました）。これらの重要なポイントのいずれかを本当に掘り下げれば、エリーザーが賢明で無関心な聴衆に対して自分の見解を簡単に擁護できない詳細にすぐに到達できると思います。そして、エリーザーが、意見の異なる人々に対するイデオロギー的なチューリングテストに合格できるとは思えません。
- もしあなたが非常に重要な逆張りの見解を持っていて、それがあなたの世界の奇妙な片隅でも依然として物議を醸しており、その支持がほぼ完全に推論と議論から来ているのであれば、これらはとるべき貴重なステップだと思います。
投稿の多くは、(明示的に述べられる議論ではなく) エリーザー氏が経験的に裏付けられていると感じる直感や考え方に基づいているようです。しかし、実際にはそれについてあまり証拠があるとは思えないので、実際には議論だけになると思います。
- エリーザーは、過去 20 年間が彼のオブジェクトレベルの直観と世界についての一般的な考え方について多くの証拠を与えてくれたと言いたいのだと思います。もしそうなら、私たちは、彼が彼の直観や推論戦略を共有しない人々の予想よりも体系的に優れた未来予測を述べられることを非常に強く期待する必要があると思います。私は、彼がこの種の証拠を提供すると考える質問について喜んで予測したり、私が喜んで予測したり（おそらく彼が私をわずかに下回ると思われる場合）、ランダムな質問の束を述べたりします。これらの直観と方法論が過剰に機能する未来についての予測がないのであれば、彼らが過去 20 年間に多くの証拠を獲得したということには非常に懐疑的であるべきだと思います (そしてそれは少なくとも説明が必要なものです)。
- エリーザーは、より広く受け入れられている推論原理を使用して、より複雑な議論の結果を予測することによって「裏付けられた」これらのトピックについて優れた直観を養うことができると思います。同様に、数学者は定理の真実性について優れた直観を持っている可能性があり、その直観は完全に経験的データではなく形式的な証明を含むフィードバックループから得られる可能性があります。しかし、2 人の数学者が定理について異なる直観を持っていて、その直観がどちらも同様の定理を正式に証明したことに由来している場合、その不一致を解決する方法は、証明を管理する通常の論理規則を使用することだと思います。したがって、これは前の箇条書きに戻りますが、エリーザーは実際に議論を行い、正当な異議を唱えることにもっと興味を持つべきだと思います。
- エリーザーには、他の方法で理解を示した実績はないと思います（たとえば、世界の詳細に関与したり、日々の適切な予測を行う必要がある技術的目標やその他のプロジェクトを達成したりすることによって）。それはそれでいいと思いますが、それは、経験に裏付けられた直観が遠くからの予測か、より慎重な議論として現金化されることを私がより強く期待していることを意味します。

和訳まとめ

Paul Chrisitiano氏はEliezer Yudkowsky氏よりもAGI脅威論に対してより中庸的な立場を取っている。

意見の一致
・このままいくとAGIによる壊滅的な被害が出るまでAIによるリスクを過小評価したままになる可能性がある。（AIが壊滅的なリスクを起こすときはそれが人間に妨げられないと確信した場合のため、それまではAIによる壊滅的な被害につながる予兆は殆ど見られないかもしれないことを念頭に置いている）

・アライメント研究は現状壊滅的なリスクを大きく減らせるレベルには至っていない。

・アライメント研究は両氏にとって通常の自然科学よりも異なるレベルでの試行錯誤の注意が必要になると考えている。

重要な意見の相違

・離陸速度（AGI→超知能への移行スピードのこと）についてPaul Chrisitiano氏はより連続的な性能の向上を予想している。AGIのような存在の実現（世界が大きく変わるAIの実現）から、数年程度かけて、超知能のような存在（認識できないほど変容する世界）に移行することを考えているようだが、Eliezer Yudkowsky氏は急激な能力の向上を信念として持っていると思われる。

・知能の急激な能力の向上についてYudkowsky氏は霊長類の進化についてのアナロジーで述べているがそれは妥当ではなく自信過剰だとPaul Christiano氏は考えている。

・上記に付随して一度限りの”pivotal acts（重要な行為）”と呼ばれるものが必要か否かで意見が分かれている。ここでいう重要な行為とは超知能による世界の政策の掌握（GPUの規制など）をその能力を解放して行うことだと思われる。Christiano氏はそのような重要な行為をせずとも規制当局と国際的に連携して行くほうが生存確率が高いと考えているようだ。

・また一度限りの試行しかアライメントの成否を試せないという点についてもPaul Christiano氏とEliezer Yudkowsky氏で対立がある。Chrisitiano氏は段階的にアライメント研究を推し進めることが可能だし、AIの能力が向上するに従ってアライメント研究が並行して進むはずだと考えている。

・また、Eliezer Yudkowsky氏は機械的/機構的解釈可能性について技術的な詳細を知らずに必要以上に現状のアライメント分野を悲観的に捉えすぎているとPaul Chrisitiano氏は述べている。

個人的な意見

Paul Chrisitiano氏もEliezer Yudkowksy氏もAIがどれだけ早いスピードで進化して、どの程度アライメント研究に対して悲観的かという相違点はあるものの、どちらもAIによる人類存亡リスクについては大きな主観的可能性を感じているようだ。
個人的にもYudkowsky氏の見解は悲観的すぎると感じているが、悲観的なシナリオの上限としてある程度その意見を聞くことで、超知能のガバナンスに対する堅牢なセキュリティマインドが醸成されるのではないかと感じている。