LLM全盛の今こそチューリングテストの原著を読んでみませんか? 【チューリング 『計算機械と知能』, ALife Book Club 番外編】
チューリングテスト、ご存知でしょうか?
機械が人らしく振る舞っているかどうかを判定するものとして天才アラン・チューリングが70年以上前に提案したテストです。
70年前というと、パソコンなんていうものはもちろんなく、バカでかい計算機がやっと出始めてきたそんな時期です。(未見の方は、まさにチューリングを扱っているこの映画を見てみると雰囲気がわかると思います。)
LLMが発展しついに人工知能が完全にこのテストを完全に凌駕しそうになってきた今こそ、天才チューリングの洞察をよみなおす絶好のタイミングではないでしょうか?
今回はその原著『計算機械と知能』についてお話していきます。
ちなみにこの文章、こちらの本で日本語で読めます!
この本には他にも面白い論文(+座談会)が収録されているので、ぜひお手にとっていただければと思います!
(小島がこの本を激推ししている理由はこちらの記事でわかります笑。)
チューリング・テストとは?
では、早速内容を見ていきましょう。
チューリングテストは「機械が考えることができるか」という問いに答えるために考えられたもので、その説明のために、チューリングはまず三人の人が参加するこんなゲームを考えます。
男女バージョン
参加者は、男(A),女(B),質問者(C)の三人です。
質問者CはA、Bとは別室におかれ、A、Bのどちらが男でどちらが女かを二人に質問するだけで当てることがミッションとなります。
一方で、AとBは敵対関係になっていて、AはCを自分が女だと騙せれば勝ちで、一方のBはCに正しく自分の性別を伝えられれば勝ちとなります。
また、見た目とか声質とかでバレないように、全てのやりとりはテキストだけでおこなうこととします。
これはCを判定者として、Aがうまく自分が女性であるように模倣できるかというゲームなので、チューリングはこれを「イミテーション・ゲーム」と名付けました。
機械 vs 人
では、本題のチューリングテストです。
これはさっきのゲームのAの役割を機械に置き換え、CはA,Bのどちらが人でどちらが機械か判定する、と変更したものです。
そして、A(機械)が勝利する(もしくは、A、Bの勝利が五分五分)ならば、機械Aは人と同様の思考ができるといえるだろうというわけです。
このようにして「機械は考えられるのか」という曖昧な問いを、具体的なテストに置き換えることに成功しました。
(ちなみに、このテストは機械にとってちょっと不利です。というのもABを入れ替えて、Bを機械、Aを人間とした場合には、機械は圧勝できるからです。例えば、何桁もある掛け算でもやらせれば一発です。)
機械の参加資格
チューリングは、このテストに参加できる機械の条件も書いています。
まず、「機械一般」を許すならこんな条件です
いまのニューラルネットワークは、構成要素はわかっていても全体としてなんでうまくいっているのかはわからないので、2の条件がなければ出場不可となりそうです。
面白いところは条件3があるところです。そりゃ人間を機械に含めていいわけがないのですが、それをちゃんと明示するところがいいですね。
でもチューリングはこれでは足りないと思っていて、なぜなら
とのことです。(ちなみにこれ、まさにiPS細胞のことですよね、、チューリングすごい、、)
これできちゃうと、「通常の方法で生まれた人間」ではないので出場可能になってしまいます。
そんなわけで、チューリングは全機械を出場可能にすることは一旦やめて、「デジタル・コンピューター」だけを出場可能としました。
チューリング・マシンとの関係
ここで、チューリングの別の大業績であるチューリングマシンと関連がでてきます。
チューリングマシンは、コンピューターの動作をあらわすモデルで、チューリングはこれを使って「計算可能性」の議論をおこないました。
詳細はここでは触れませんが、チューリングマシンには万能チューリングマシンという特殊なものがあり、このマシンはありとあらゆるチューリングマシンを模倣できます。
チューリングテストもイミテーション・ゲーム(模倣ゲーム)と名付けられているのはおそらく偶然ではなく、人の思考を包含するような「万能チューリングマシン」的なものがあるのか、という問いになっているといえます。
そんな機械を作るためのチューリングの戦略
この文章はこのテストの提案だけで終わりません。どうやったら実際にそんな機械を作れるか、というところまで踏み込んでいきます。
必要なスペック
まずはどのくらいのスペックのコンピューターが必要か、というところからです。
例えば記憶容量(メモリ)はどのくらい必要でしょうか?
チューリングはこの時代の知見から、脳の記憶容量を10¹⁰-10¹⁵ bit、つまり1GBから100TBとし、さらにその下限(1GB)に近いのではと予想していました。
この当時の技術でも頑張れば1MBくらいはいけそうなので、この下限には十分行けるのではというのがチューリングの予想でした。
テラバイトが普通になっている今から考えると、このくらいまでいけるはずというチューリングの予想は当たったといえます。
ただし、脳の記憶容量はいまではかつての見積もりの上限よりさらに上まわり、1PB(ペタバイト=1000TB)とまで言われています。
(脳の記憶はシナプスという神経細胞同士の接続部分に保持されるので、記憶容量の見積もりは(シナプスの数)×(1シナプスで保持できる情報量)として見積もられているようです。)
このサイズになってくると今でもなかなか実現難しい規模感ですが、GPT-3だとネットワークの重み(ざっくりいうと「保持されている記憶量」)の数は1750億個(だいたい10¹¹個)で、GPT-4は公開されていないもののそれを更に上回っている(多分1兆個くらい?)ため、だいぶ脳の規模感に迫ってきているといえます。
どうやってプログラムするか?
チューリングの予想だと10⁹個くらいの記憶容量があれば、チューリングテストをパスできると考えていました。
でも当然まっさらなメモリだけあってもだめで、プログラムしてやることが必要です。
10⁹を埋めるためには、一人一日1000ずつ入力したとして、60人が50年作業する必要があるとチューリングは見積もりました。
さすがに、これはきつすぎます。
そこで「学習する機械」が必要であるとチューリングは考えました。これはバックプロパゲーションによって、最近のニューラルネットワークが急速に発展したことを考えるとやはり慧眼といえるでしょう。
ただし、チューリングは人の発達過程をイメージしていたため、子供に相当する機械のほうが簡単につくれると予想していました。
いまのLLMはあまりにちゃんとしていて、逆に子供を模倣するほうが難しそうにみえるのはなかなか興味深いです。
GPTはチューリングテストをパスしているか?
1950年の時点でチューリングは50年後(2000年)には、10回やれば3回はだませるくらいの機械がつくれると予想していました。
実際には2000年時点ではそれほど性能のいいAIは出てきませんでしたが、ここ数年のLLMの発展で急速に向上してきました。もはや肌感覚としてはほぼ人という感じがしますが、実際のところどうなのでしょうか?
もちろんGPTでやってみたという人はいて、この論文だとGPT-4が10回やれば4回だませるレベルまできていると報告しています。
まだ10回中5回とまではいかないため、完全に模倣できてはいませんが、それも時間の問題という感じがします。
(なんなら、場合によっては人よりも人らしく感じさせることすらできても不思議ではありません。)
こうなってきたときに、AIは人の思考を完全に模倣できているということを認めるかどうか、さらなる議論が生まれてくるでしょう。
チューリングはすでに、いろんな反論を想定して、それに対するさらなる反論もこの文章には書かれています。(人にエスパーの能力があった場合にどうするか、ということまで検討されています笑)
ここはぜひ本書を読んでみていただければと思います!
次回予告
というわけで、今回は番外編としてチューリングテストについてお話しました。
このテスト聞いたことがあっても、案外原著にあたっているひとは少ないと思うので、よかったらぜひ読んでみてください!
次回なにやるかまだ決めてないのですが、いろいろ準備はしているので、ぜひ来週もご覧ください!
今週も最後までお読みいただきありがとうございました!
この記事が気に入ったらサポートをしてみませんか?