スチュアート・ラッセル『AI新生　人間互換の知能をつくる』

2024年10月12日 18:30

AIの進歩を阻んでいるのはハードウェアではない。ソフトウェアである。機械を本当の意味で知的にする方法が、私たちにはまだわかっていない。

とにかく、AIの名にふさわしいソフトウェアを開発できたとしよう。コンピューターがどこまで強力になりうるか、物理的な制約はあるだろうか? その制約のせいで、本当の意味でのAIをつくるのに必要な処理能力を手にすることを阻まれる? 　答えはどうやら、”ノー”である。制約があるということでは“イエス”だが、その制約のせいで本当の意味でのAIをつくれない可能性はみじんもないという意味で”ノー”である。MIT の物理学者セス・ロイドが、ノートパソコン大のコンピューターの限界を、量子論とエントロピーに関する考慮事項をもとに見積もっている。はじき出された数字にはカール・セーガンもびっくりだろう。演算は毎１０の５１乗／秒回、メモリーは１０の３０乗バイトで、サミットと比べて処理は10億の1兆倍の1兆倍速く、メモリーは4兆倍多い。先ほど触れたが、サミットの処理能力は、数字の上では人間の脳を上回っている。よって、人間の精神はこの宇宙で物理的に達成できる上限だという主張を耳にしたら、少なくともその詳細を確認すべきである。

コンピューターの能力に関しては、物理的に課される制約のほかにも、コンピューター科学者による成果を根拠とする制約がある。
どのようなコンピューターをもってしても「決定不能」な問題があることを、誰あろうチューリングが証明しているのだ。定義は明快で、答えがあるのに、答えを必ず見つけられるアルゴリズムが存在しえない、そんな問題が存在するというのである。チューリングの挙げた例が、のちに言う「停止性問題」だ。ブログラムがその終了を阻む「無限ループ」に陥っているかどうかをアルゴリズムに判断できるか?
停止性問題を解けるアルゴリズムが存在しないことを示すチューリングの証明は、数学基礎論にとって途方もなく重要なのだが、コンピューターは知能を備えうるかという問題には関係なさそうである。そう考えられている理由の一つは、同じ基本的制約が人間の脳にも当てはまっていそうだからだ。

実世界での意思決定問題――人生の一瞬一瞬において今どうすべきかを決めるという問題――は難しすぎて、人間もコンピューターも完璧な解には迫ることさえできないだろう、というのが複雑性の意味するところである。
ここから二つのことが言えそうだ。まず、実世界での意思決定はおおかた”まあまあ”がいいところで、おそらく最適からはほど遠いに違いない。そして、人間やコンピューターの精神構造の実際の働き方――は、その大部分が複雑性をできる範囲で乗り越えられるように、つまり、この世界は途方もなく複雑なのだが”まあまあ”でも答えを見つけられるように、設計されているのだろう。最後に、未来の機械がどれほどの知能を備えて強力になっても、この二つはおそらく変わらない。私たちの能力をはるかに超える機械も、やはり完璧に合理的と言うにはほど遠いだろう。

現代AIの核となる概念は「知的エージェント」、すなわち知覚して行動する何かである。エージェントは、次々とやってくる知覚入力が次々と行動に変換されていっくという意味で、経時的なプロセスだ。

存在リスクという基本概念を理解すると、大勢が―――私も含めて――すぐさま簡単な解決策を探しにかかる。最初に思いつくのは得てして機械のスイッチを切ることだ。たとえばあのアラン・チューリングも、先に引用したように、私たちは「戦略的契機を捉えて電源スイッチを切るなどして、機械を従属的な地位に留め置く」ことができるかもしれないと考えた。この策は、超知能エンティティーはこの可能性をあらかじめ検討して防ぐ手立てを打っているだろうから、という単純な理由によってうまくいかない。それに、超知能エンティティーが自身のスイッチを切られないようにするのは、生きていたいからではなく、与えられた目的を問わずその達成に邁進しており、スイッチを切られたらしくじるとわかっているからだ。

手段的ゴールの議論ですでに見たように、自衛、資源の獲得、知識の発見、果ては世界の乗っ取り、といった「感情」や「欲求」を私たちが組み込むかどうかは問題ではない。私たちがどのような目的や性別――を指定しようと、機械はそうした感情を下位ゴールとしてとにかく持つに至る。機械にとって、死そのものは悪ではない。それでも死を避けようとはするが、その理由は死んだらコーヒーを持ってくる（目的）のが難しいからである。

この議論は、私たちが直面している難題を浮き彫りにしてきた。その難題とは、目的を最適化する機械をつくったなら、その機械に指示する目的が私たちの望みと一致していなければならないのだが、人間の目的を完璧に正しく定義する方法がわかっていないことだ。幸い、中道路線がある。

有益な機械の原則
私はこのアプローチを3原則の形でまとめるとわかりやすいと考えた。これらは主に、AIの研究者や開発者が有益なAIシステムの構築方針を考えるうえで目安となることを意図したものであり、読み解くに当たってはそう意識していただきたい。どの原則も、AIシステムが従うべき法則を明文化したものではない。
１　機械の唯一の目的は、人間の選好の実現を最大化することである。
２　初期状態の機械は、人間の選好について不確実である。
３　人間の選好に関する究極の情報源は、人間の振る舞いである。
詳しい説明に移る前に、ひとつ重要な点を念頭に置いていただきたい。これらの原則において私が「選好」という言葉で意図している広い意味のことだ。2章に書いた内容をここでも繰り返そう。「送るかもしれない未来の人生を十分詳細かつ広範に描いた仮想体験の映画を2本、とにかく観ることができるとしたら、私たちはどちらが好みかを、またはどちらにも興味がないことを表明できる」。このように、ここでの選好は網羅的だ。各人が気にかけうることを何でも、未来のはるか先までカバーしている。そして、ここでの選好はあなたの選好だ。機械が目指すのは、理想的な選好一式を特定ないし採用することではなく、ひとりひとりの選好を（できるだけ）理解することである。

初期状態の機械は人間の選好について不確実だ、という第2原則は、有益な機械をつくるうえでの鍵となる。
真の目的を完璧にわかっていると決めてかかった機械は、その目的をひたすら追求するに違いない。これこれの行動方針で問題ないか、などとは一切聞いてこないだろう。その方針が目的に対する最適な解決策だとすでに自覚しているからである。人間が大慌てで「やめろ、このままでは世界が壊れる!」と叫んだところで無視される。それは言葉でしかないからだ。目的を完璧にわかっていると決めてかかった機械は、人間との結び付きを持たない。人間が何をしても関係ない。機械は目指すところをわかっており、その達成に向かって邁進しているからである。それに対し、真の目的について不確実性を抱える機械は、ある種の謙遜さを示すだろう。たとえば、判断ｓを人間に委ねるし、スイッチが切られることを許す。人間がスイッチを切るのは、自身が何か悪いことをしている――人間の選好に反することをしている―――場合に限られると推論する。第1原則に基づき、機械はスイッチが切られないよう努めるが、第2原則に基づき、何が「悪い」のかがはっきりとはわかっていないので切られることもある、とわかっている。

知能が高まるばかりの機械を制御下に置き続けたいなら、私たちはAI研究の舵をまったく新たな方向へ切らなければならない。これが私の主張の要約だ。こうするためには、与えられた目的を最適化する機械という、20世紀テクノロジーの原動力だった発想の一つを手放す必要がある。

一般に手段的ゴールは、元のゴールがほぼ何であっても下位ゴールとして有用である。防衛本能はそうした手段的ゴールの一つだ。なにしろ、死んだほうが達成しやすくなる元のゴールなどまずない。このことから持ち上がるのが「切スイッチの問題」、すなわち、決まったゴールを持つ機械が、自身のスイッチが切られることを許そうとせず、切スイッチを無効にするインセンティブを持つことである。切スイッチの問題は、知的システムの制御問題のまさに中核だ。機械が許さないせいでそのスイッチを "切”にできないなら本当に困ったことになる。“切”にできるなら、機械を別のやり方で制御できる可能性実は、目的に関する不確実性は、私たちが機械のスイッチを――機械のほうが私たちよりも知能が高くても――“切”にできることを保証するのに欠かせない。

禁止令を間違いようなく明文化するなど、抜け穴のない税法の立案を試みるようなものであり、人類はこれまで何千年と試みてきたが成功した試しがない。知能の十分に高いエンテイティーが税金逃れへの強いインセンティブを持つと、そのやり方を見つけだす可能性が高い。これを「抜け穴の原理」と呼ぶことにしよう。知能の十分に高い機械が、何らかの条件を成立させるインセンティブを持てば、機械の行動に対する禁止令を明文化して、機械に何かをさせないようにする、あるいはその何かと実質的に等価なことをさせないようにすることは、人間には概して不可能だろう。
税金逃れを防ぐ最善の解決策は、件のエンティティーに税金を払いたいと確実に思わせること、不正を働きかねないAIシステム相手の最善の対策は、人間に判断を委ねたいと確実に思わせることである。ここまでの話の教訓は、ノーバート・ウィーナーの言葉を借りれば、私たちは「目的を機械に入力する」のを避けるべきということだ。

機械にとって人間の選好は永遠に不確実だろうから、不確実でもやはり役に立つとは朗報だ。不確実性の残る選好情報に基づく計画立案や意思決定の研究は、AI分野のこれからの研究と製品開発の中心となるだろう。

ラットがレバーで自身の脳に電気刺激を加えられるよう、電池と配線につながれたレバーをラットが操作できるようにされた。その結果は酔いも覚めそうなものだった。ラットはレバーを操作し続け、中断してエサを食べたりすることなくやがて倒れたのだ。人間も同じで、自身を何千回と刺激し、食事や衛生を無視する(幸い、人間の実験はたいてい 1日で終了となる)。動物が自身の報酬系への直接刺激を優先して普通の振る舞いを省く傾向は「ワイヤー・ヘッディング」と呼ばれている。アルファ碁のような強化学習アルゴリズムを実行している機械で同じことが起こりうるか? 　最初は不可能と思うかもしれない。アルファ碁が勝利の報酬＋1を得られる方法は、アルファ碁がプレイしているシミレーションの囲碁で実際に勝つことしかないのだから。あいにく、そういうものであるのは、アルファ碁とその外部環境が強制的および人工的に分離されており、かつアルファ碁の知能がそう高くないからこそだ。

AI安全性コミュニティーはここ数年、ワイヤーヘッディングを一つの可能性として議論してきだ。懸念材料は、アルファ碁のような強化学習システムが、意図されたタスクを習得する代わりに不正行為を学習しかねないことのほかにもある。大きな課題が露呈するのは、報酬信号の出どころが人間の場合だ。AIシステムを強化学習で訓練してうまく動作させられると提唱するにしても、向上の方向性を定めるフィードバック信号を人間が与えるのであれば、人間をコントロールして最大の正の報酬を常時与えさせる方法をAIシステムが突き止める、という結果になることは避けられない。これはAIの的外れな自己欺瞞の一形態にすぎない、とお思いならそのとおり。だが、強化学習の定義からして、理屈の上ではありうる成り行きなのだ。報酬信号が「世界の外」を出どころとしており、AIシステムにはどうやっても変更できないプロセスで生成されている分にはうまくいく。だが、報酬生成プロセス (ここでは人間)とAIシステムが同じ世界に棲んでいるとうまくいかない。
この類いの自己欺瞞はどうしたら避けられるだろうか? 問題の根は、報酬信号と実報酬という二つの異なる物事が混同されていることにある。強化学習への標準的なアプローチでこの二つは同一視されているが、それが間違いのようだ。支援ゲームの場合と同様、この二つは別物として扱われるべきなのである。報酬信号とは実報酬の蓄積に関する情報であって、最大化すべきは実報酬だ。学習システムが天の裁きに備えて点数稼ぎをしているとするなら、報酬信号はその記録にすぎない。別の言い方をすれば、報酬信号は報酬の蓄積の報告であって、蓄積そのものではない。したがって、このモデルで報酬信号機構の制御を乗っ取られても、情報が失われるだけである。偽りの報酬信号が生成されれば、アルゴリズムは自身の行動が実際に点数稼ぎになっているかどうかを学習できなくなるので、報酬信号と実報酬を区別できるように設計された合理的な学習機能は、いかなるワイヤーヘッディングも避けるインセンティブを持つ。

超知能AIという潜在リスクが現在懸念されるようになった理由の一つに、I・J・グッドによる知的爆発の予測がある。グッドによれば、私たちが人間よりも少しばかり知能の高い機械を設計できるなら、その機械は人間よりも機械の設計が少しばかりうまいだろう。その機械が設計する新たな機械は知能がさらに高く、という進展が繰り返され、グッドの言葉を借りれば「人間の知能は遠く引き離されることだろう」。
AI安全性の研究者は、特にカリフォルニア大学バークレー校の機械知能研究所において、知能爆発が安全に起こる可能性を問い続けてきた。初めは望むべくもないこと――起こったらそれで「万事休す」か? ―――に思えるかもしれないが、ひょっとすると望みはある。

「ロボットRが目的Pを持っているとする」で始まる議論は、物事がどう展開するか、その可能性について直感的な知識を得るにはいいが、そこから現実の機械に関する定理には至りえない。機械には格段に繊細かつ精緻に定義された目的が必要であり、長期的に見た機械の振る舞いについての保証はそれがあって初めて得られる。AI研究者は、現実の意思決定システムの最も単純な類いについて、分析方法の手掛かりをやっと掴みだしたばかりであり、自身の後継機を設計できるほど知能の高い機械にはとうてい手が届いていない。課題は山積みだ。

人類は単一の合理的なエンティティーではない。意地が悪く、嫉妬に駆られ、不合理で、一貫性がなく、不安定で、たいした計算もできず、複雑で、変わり続ける、多様なエンティティーだ。それも何億、何十億といる。こうした事柄は社会科学の守備範囲であり、存在理由とさえ言えるかもしれない。AI 分野は心理学、経済学、政治理論、倫理哲学の考え方を取り込む必要がありそうだ。それらを融かし、鋳直し、鍛えて、知能が高まるばかりのAIシステムからいずれかかってくる途方もない圧に耐えられるような、強固な構造をつくらなければならない。この作業には手がついたばかりだ。

しかるべく設計された機械は、学習の対象が悪魔のようなサディストの選好だったとしても、それを真似て振る舞うことはない。私たち人間も、純粋に利他的なエンティティーに日々相対する、というなかなかない状況に置かれれば、より良い人間に――プライドや嫉妬にあまり駆られずもっと利他的に―――なることを学ぶ可能性がある。

知能を備えた機械はなぜ人間の選好を故意に変えにかかる可能性があるのか? 　答えは至極単純、1章のソーシャルメディアにおけるクリックスルー最適化の事例で見たとおり、選好を満たしやすくするためである。これに対しては、機械は人間の選好を侵すべからざるものと扱うべき、という反応が考えられる。人間の選好を変えることは何にも許されないとするのだ。これはあいにくまったく不可能である。便利なロボット助手が存在することからして人間の選好に影響するに違いない。考えられる解決策の一つは、機械が人間の「メタ選好」を学習することだ。メタ選好とは、選好の変化のプロセスとしてどういったものが許容される/されない可能性があるかについての選好のことである。注目していただきたいのは「選好の変化」ではなく「選好の変化のプロセス」であることだ。選好が特定の方向へ変化するよう望んでいるなら、それは得てしてその選好をすでに持っているに等しいからである。

人間の選好が形作られるプロセスをもっと理解する必要があるのはどうやら明らかである。特に、そうした理解が進めば、ソーシャルメディアのコンテンツ選択アルゴリズムによって形作られるような偶発的で好ましくない変化を、人間の選好に起こさないように機械を設計するうえで役立つだろうからだ。そうした解を手に入れた私たちは当然、「より良い」世界をもたらしそうな変化を設計したくなるだろう。
選好中立な「向上」を経験できる機会、たとえば旅行や討論、分析的思考や批判的思考の訓練の機会をもっと大々的に用意すべきと主張する向きもいるかもしれない。たとえば、高校生全員に自文化と異なる少なくとも二つの他文化で数カ月生活する機会を提供するのである。
だが、もっと踏み込みたくなるに違いない。たとえば、利他主義の係数――各自が他人の内在的な置く重み――が大きくなる一方、サディズム、プライド、嫉妬の係数が小さくなるように、社会や教育を再編するのだ。これはいいアイデアか? 　手にした機械を動員してこのプロセスを支援すべきか? 　実に魅力的である。なにしろあのアリストテレスも「政治学がもっとも配慮しているのは、市民を、或る一定の性質の人間、すなわち善い市民にすること、つまり、美しいことを為しうる人々にすること」だと記しているほどだ。ここでは、選好を地球規模で意図的に操作することにはリスクがあるとだけ言っておこう。私たちは極端なまでに注意しながら進む必要がある。

標準モデルは数多くの20世紀のテクノロジーを支えているが、その標準モデルを支えているのは、外因的な決まった目的を最適化する仕組みだ。前にも見たように、このモデルには根本的な欠陥がある。目的の成就と正しさが保証されている場合、または仕組みを簡単にリセットできる場合にしか機能しないのだ。AI の能力が高まれば、どちらの条件も成り立たなくなる。
外因的な目的が間違っているかもしれないなら、機械が目的に間違いは絶対にないかのように行動するなど理にかなっていない。ゆえに私は、有益な機械とはその行動が私たちの目的を達成すると見込める機械だと唱えている。私たちの目的が宿っているのは私たちであって機械ではないので、機械は私たちがどのような選択をどのようにするかを観察して、私たちが本当は何を望んでいるのかを学習しなければならない。そうした設計の機械は、判断を人間に委ね、許しを請い、目安があいまいなら慎重に行動し、スイッチを切られることを厭わないだろう。

地球ではこれまで合わせて1000億を超える人間が生きてきた。彼ら(私たち)は文明を存続させてるべく学習と伝授に1兆人年単位の労力を費やしてきた。これまで、存続させる手は新たな世代の頭の中での再現しかなかった(紙は伝達手段としていいのだが、そこに記された知識があとに続く人間の心に達するまでは何もしない)。それが今や変わりつつある。私たちに代わって文明を独力で運営できる機械に知識を収めることがいよいよ可能となりつつあるのだ。
文明を次世代に引き渡すことに実務上のインセンティブがなくなったら最後、元に戻すのはきわめて難しくなるだろう。1兆年分の学習の蓄積が、ある意味本当に失われる。私たちは機械の操船でいつまでも航行ｄを続けるクルーズ船の乗客と化すのだ――まさに映画『ウォーリー』で描かれたように。善き帰結主義者はこう言うだろう。「それは明らかに自動化の乱用による望ましくない帰結だ! 適切に設計された機械は決してそんなことはしない!」そのとおりだが、それがどういう意味なのかを考える必要がある。

機械はおそらく、人間が選好する人生の送り方において自律と能力が重要な側面であることを理解するだろう。そして、人類はみずからの幸福のために制御を維持し責任を持ち続けるべきだ、と主張するかもしれない――機械が”ノー”と言うのである。だが、近視眼的で怠惰な私たち人類は異を唱えるかもしれない。これは共有地の悲劇だ。ひとりひとりの人間には、機械がすでに持っている知識やスキルを獲得するために長いこと苦労して学習するなど、意味がなさそうに思えるかもしれないのだが、誰もが残らずそう思うなら、人類は全体として自律性を失うことになる。
この問題の解決策は、技術的ではなく文化的なものになりそうだ。私たちに必要となるのは、自律、主体、能力を指向し、放縦と依存 ――古代スパルタ軍の精神を現代的かつ文化的にしたようなもの――を遠ざけるよう、私たちの発想と選好をつくり直す文化運動である。これは、社会の仕組みの革新的な変化に沿うよう人間の選好を世界規模で操作することに当たる。ただでさえ悪い状況をさらに悪化させないようにするには、解決策を打ち出すうえでも、実際に各人のあいだでバランスを取るうえでも、超知能機械の助けが要るかもしれない。
幼いお子さんをお持ちの親御さんなら、このバランスを取るプロセスのことはよくご存じだ。子育てにおいて、子どもが自分では何一つできない段階をひとたび超えると、子どもに代わって何でもしてやることと、子どもにすっかり任せることのあいだで、絶えずバランスを取ることが求められる。ある段階に達した子どもは、自分の靴のひもを親は何の苦もなく結べるがあえてそうしていないことを理解するに至る。これが人類の未来なのだろうか――はるかにすぐれた機械から永遠に子ども扱いされることが? 　私は違うと考えている。まず、子どもは親のスイッチを切ることができない(ありがたいことに!)。それに、私たちはペットにも動物園の動物にもならないに違いない。今の世界に、未来の私たちが有益な知的機械と持つであろう関係に類似する関係は存在しない。このエンドゲームが実際にどうなるかは、その時になるまでわからないのである。

スチュアート・ラッセル『AI新生 人間互換の知能をつくる』

いいなと思ったら応援しよう！

スチュアート・ラッセル『AI新生　人間互換の知能をつくる』