「科学×AI」から考えるAIアライメントの難しさ
先日の勉強会では、AIが科学をどう変えるのか、いわゆる「AI for Science」の帰結について考えた。一方で、AIそれ自体も新しい科学の研究対象になりつつある(=Science of AI)。「AI for Science」と「Science of AI」が組み合わさるとどうなるか。AIが科学を変え、科学はAIを理解しようとする。その科学そのものにAIがまた使われる。したがって、「AI for Science of AI for science of AI for …」というフィードバックループ、互いを強化しあう増幅回路が現れそうだ。すでに現れているかもしれない。
少し視野を広げれば、この構図は科学以外にも成り立ちそうだ。「AI×人間の営為」において、AIはその営為の意味や前提(例:『機械カニバリズム』で記述されるAIと将棋棋士の関係)を変え、そのことが”AI”と呼ばれる技術や概念を揺さぶっていく。
AIの「アライメント問題」とは、人間の目的・選好・価値観に整合(アライン)したふるまいをAIにさせるにはどうすればよいかを問う。これを聞いて誰しもまず気になることの一つに、「何がアラインするのか(align to what?)」がある。アライメント問題が解決するとはどういうことか。たぶん最初にイメージされていたのは、1)「人間の選好・価値観にAIの挙動をアラインさせる」というものだろう。しかし、2)「AIの挙動にアラインするように人間の選好・価値観が変わる」ことも、ある意味アライメント問題の解といえる。少し考えると、そのどちらでもないパターンがあることがわかる。「AIの挙動と人間の選好・価値観が相互依存的に変化しながらアラインする」という第3のパターンであり、最も現実的なのは実はこのパターンだろう(なお、ここでの論旨とは若干ずれる意味合いかもしれないが、昨年のワークショップで山川宏氏はAIと人間の「相互アライメント」という言い方を提案している)。
これからのAIと科学が、「AI for Science of AI for science of AI for …」という再帰的なフィードバックループの中で発展していくのだとすれば、科学は上記の「第3のAIアライメント」のイメージがより強調されて起こる局面だといえるかもしれない。(ただし、この話とAIアライメントとつなげるには、科学とAIの関係がどのように科学の「価値」や「目的」に影響を与えうるかという補助線が必要になる。)
「科学AIを駆使するAI科学」が、人間科学者や人間社会とアラインし続ける保証はないが、アラインしたとしても、「第3のAIアライメント」が現実に起こることならば、両者の絡み合いがどこへ向かうかは予想も制御もできない。いや、できるのだろうか。できるとするならば、その学問的な材料はどこに存在しているだろうか。