「人工知能は人間を超えるか?」を読んで

松尾先生の「人工知能は人間を超えるか?」を読んだ。5年ほど前に発売されて、人工知能に少しでも関わっている人であれば必ず目にしたことがある本だ。自分は研究者ではないが、あるきっかけがあって真剣に勉強しようと思い始めた。俺が人工知能や機械学習を学んでいるモチベーションは、
人間にしかできないことと、機械にできることの違いを知り、人間が何をすべきかを知る」シンプルにこの一文に要約される。

ビジネスにおける人工知能とは推測である、というのが俺の理解である。ソフトバンクの孫さんも「人口知能とは何か?」という質問に対して、「予測する力」だと言っている。この「予測する」力に関して、人間が上回っている領域と、コンピューターが上回っている点が明確に分かれている。

見る

例えば、視覚イメージ。私たち人間は、家の周りを歩いている時にご近所さんに会えば「〇〇さんだ!」と認識できる。それは、髪型・目の形・鼻の形など、〇〇さんを構成する「個性」を統合し、「こういう特徴は〇〇さん特有」というラベリングをしているからだ。一方でコンピューターは何をやっているか?まさに同じである。画像を何枚も読み込む中で「この人は鼻がこんな形になっていて、耳はこんな形になっている、目がこんな形になっている」(正確には、目や耳という概念はなく、目の場所・耳の場所にこんな濃淡がある、という感じ)という風に「個性=特徴量」を生成していく。最終的に出来上がった「その特徴量を持つ人間」に「〇〇さん」というラベリングをしてあげれば、人間と同じように認識することが可能だ。
動画は画像の連続体に過ぎないので、同じことができる。Googleが「ネコ」を認識できる人工知能を開発した時も使ったのはyoutubeの動画を静止画に分割したものだ。画像や動画のように、ピクセルに二進数を当てはめて表現できるものはコンピューターが滅法強い。複数の人間をほぼ同時に認識しなければいけない時は、間違いなく人間よりコンピューターの方が高速・高性能だ。

聞く

「音」はどうだろうか?音も振動数を二進数で表現できるため、コンピューターの方が高性能だ。これを「推測」と絡めるとどんなことができるだろうか?例えば、聴いた音楽を「ジャズ・クラシック・演歌」に分類するというタスクがあったとしよう。人間は新しい音楽を聴いた時、「なんとなく裏拍気味だし、スイングしている感じがするからジャズかな?」とか、「複数の楽器が重厚に重なり合って和音を形成しているからクラシックかな?」のように考える。まさにコンピューターのお得意技だ。音の高低(振動数)の並びに注目して、大量の音楽をコンピューターに聞かせると、「音が段階的にうねうね動いている音楽、急に音が止まってスタートする音楽、長音が多くフラットが多い音楽」など分類し始める。それに人間が「それはジャズですよ、演歌ですよ、クラシックですよ」とラベリングしたら、新しく聴いた音楽の「特徴量」を自分で判断して、それがどんな音楽ジャンルに属するのかを判断してくれる。

その他の能力

人間は何も「見る」「聞く」だけじゃない。「嗅ぐ」「触る」「味わう」などの能力も持っている。たまに第六感(直感)があるという人もいる。機械にできるかどうかの判断基準について、俺は「特徴量を限定的な二進数に変換できるか」だと思っている。さまざまな分野で研究が進んでいるが、「匂い」も「手触り感」も「味わい」も、デジタルに変換することができれば必ずコンピューターは特徴量を見つけ出すことができる。その「データの下ごしらえ」さえやればほかの身体機能とほとんど変わらないだろう。「見る」「聞く」がビジネスシーンで盛り上がっているのは、シンプルに「人間が働く時にその能力に依存してきたから」であり、その代替が進めば人件費が浮かせられるからだ。仮に、「食べたものがどこの国の料理かを当てる」ビジネスマーケットの規模がめちゃくちゃ大きければ、こぞってその分野に「分類できるコンピューター」を投入するだろう。

簡単そうで相当難しいこと

それが言語である。言語は難しい。これは自然言語処理研究をしていた親友が繰り返し言っていたことでもあるし、松尾先生も強調していたが、「言語には文脈や意味が伴う」ことが最大のネックだ。ラベルの貼り方が文脈や人によって変わってしまうのだ。あまりいい例ではないかもしれないが、「あなたって、ほんと"自由"な人よね。」という文章があったとする。この"自由"という単語をデジタルで表すことは簡単だが、それが「表していること」が何かと聞かれると難しい。そもそも「自由」ってなんだ?どういう文脈で使われるんだ?この文では皮肉として使われているのか?それとも褒めちぎっているのか?それがわからないのである。なぜならそこに「意味の理解」がないからである。我々人間は、前後の文から「今はなんか二人の雰囲気がいい感じだ」とか「男の浮気がバレたシーンだから女は怒っているかも」などの事前意味情報を頭に入れながら読み進める。そうすると、同じ文でも解釈が全く変わってくるのだ。この「意味の獲得」が進むには相当に時間がかかる。なぜなら「ラベルが統一されないから」であり、「特徴量が入り組みすぎているから」である。

人間がすべきこと

ここまで読んで、コンピューターが得意なことと、人間が得意なことの違いがぼんやりとわかった。コンピューターと聞くと少し恐怖感があるが、昔クラスにいた「異様に暗算早いやつ」とか「一度見ただけで全部記憶しているやつ」と本質的には変わらないだろう。僕がコンピューターにできることにあまり魅力を感じないのは、「クラスで自分より暗算早いやつがいて、そいつには脳の構造上絶対に追いつけないことがわかっているのに、必死に暗算を頑張る」のが阿呆らしい、というのと同じ論理だ。どうせ生きるなら、その人にしかない特技を発揮して人生を楽しみたいものだ。

俺が思う人間の力とは、知能 ×「生命力」×「過去」だ。
知能とは、ここまで紹介した能力に他ならない。コンピューターの方が優れている点もあるし、人間の方が優れている点もある。
「生命力」とは?シンプルに全く電気がない場所に行ったらコンピューターはクソの役にも立たない。停電中に危険が迫っているとしたら、人間が自分の知能を使って判断しなくてはならないのだ。

ここまではよく言われることだ。坂本が考える人間の真の価値とは「過去」にある。何が言いたいかというと、同じ音楽を聴いたり、同じ文章を読んだとしても、その人の「過去」によって、結びつくイメージや感情が異なるのだ。同じ空の青色が、「自由」という概念と結びつく人もいれば、自分の矮小さを感じさせる「恐怖」に結びつく人もいる。その違いこそがその人の価値である。

だからこそ、いろんなしがらみは除いておいて、長期的に人間がすべきことは「正解を探さない」ことである。それがどんな「お金的価値」に結びつくかはわからないが、大多数の人に「ネコ」に見えても「いやこれはどう考えてもライオンだろう」と自信を持って言っていいのだ。

ビジネス=「正解を出す場」なのであれば、そこから出てしまえばいい。いずれ正解を出す作業はコンピューターが全て代替する。正解が価値基準ではないフィールドを自分で作ればいいのだ。「違いこそが価値である」というような世界を。それがいい世界なのかもわからないが、とにかくそういう方向に今後はなっていくんだろうなと思う。

おわり

この記事が気に入ったらサポートをしてみませんか?