「AIが会話できないのはなぜか」読書メモ

2022年4月14日 23:08

「会話」の奥深さを、ギュッと凝縮した一冊

東京大学・京都大学の名誉教授であり、現在は福知山公立大学教授である、西田豊明氏の著書。（西田氏の専門分野は、人工知能、会話情報学とのこと）

自然言語処理に興味を持ち、現在のAIで出来ること・出来ないことを知りたいと思っていた時に、「AIが会話できないのはなぜか」というタイトルに惹かれて購入。

タイトルに「AI」とあるが、本書の内容は、AIの話題に留まらず、以下のように多岐にわたる（むしろ、AIに関する内容は頁数で言えば全体の1/4程度）

『コモングラウンド』の概念の導入
「会話」「（業務における）協調作業」「コミュニティ」といったコミュニケーションの異なるレベルにおいて、それぞれのコモングランドがどのようなものであり、どのように形作られているのか？という考察や知見の整理
会話システム、AI技術のこれまでの取り組みの概説
会話ができるAIを作り出すための戦略と展望

会話を含む、人同士のコミュニケーションの奥深さを、ギュッと一冊に凝縮したような内容で、とても面白い書籍だった。
一度読んだだけでは理解できない部分も多々あったが、現時点で印象に残っている部分を、自身の解釈を咥えながら、紹介していきたい。

『コモングラウンド』とは？

『コモングラウンド』とは、西田豊明氏が提唱する概念なので、まずは本書からの引用。

「コモングラウンド」とは、著者が提唱する概念で、コミュニケーションを取る上で欠かせない相手との共通理解や会話のバックグラウンドのこと。

私の理解では、「コミュニケーションにおいて、他者との間で共有されている、思考・感情・イメージ」と言い換えられるのではないかと思う。

例えば、以下のような、３人での会話を考えてみる。

A「前に行ったハワイアンレストランよかったよね」
B「ね。パンケーキが美味しかったなぁ」
C「私も食べてみたい。ねぇ、来週３人で行かない？」
A「いいね。行こう行こう」

この時、AとBは話題に上がっているハワイアンレストランに過去に一緒に行ったことがあり、その時の店の雰囲気やパンケーキの味、楽しかったという感情などが、AとB２人のコモングラウンドとして共有されている。一方で、Cはその時は一緒にいなかったため、Cとのコモングラウンドにはこれらは含まれていない。

しかしながら、会話後半においては、ハワイアンレストランに来週３人で一緒に行くということになり、この計画は、A、B、Cの３人のコモングラウンドに追加された。

この例に見たように、コモングラウンドは会話の進行とともに逐次アップデートされるものであり、また、同じ会話に参加しているからといって参加者全員が同じコモングラウンドを共有している訳ではなく、参加者の組み合わせの数だけコモングラウンドが存在する。

「常識」とは異なるもの

私が「コモングラウンド」と最初に聞いた時に、「それって"常識"とは違うの？」と思った。

本書の中では特に明示的な説明はなかったと思うが、「コモングラウンド」は、いわゆる「常識」とは異なるものである。

「常識」とは、広辞苑によると『普通、一般人が持ち、また、持っているべき知識』とのこと。つまり、社会生活において"規範"とされる"知識"である。

一方で、上述の例で見た通り、「コモングラウンド」には規範というような側面は全くなく、コミュニケーションに関わっている人の間で自然と共有されるようなものである。また、共有される対象も、思考、感情、イメージなど、知識に限定されるものではない。

AIに「会話」が難しいのは何故か？

「会話」と「対話」は異なるもの

そもそも「会話」とは何か？
私は、「会話」と「対話」を区別して考えたことがなかったが、どうやら異なるものらしい。

本書での区別が必ずしも一般的なものではないと思うが、人のコミュニケーションが２種類に大別されるというのは、多くの人が納得するところと思う。

まずは、「対話」について、筆者の説明を引用する。

対話の目的は、コモングラウンドを確立した上で、不明なところ、あるいは、対立しているところを埋めることだ。

P.44

例えば、ショッピングにおける客と店員の「対話」を考えてみる。
店員側からは、商品選びをサポートできるという姿勢や、オススメの商品の情報を、客側からは、どういった商品を買いたいか、どのくらいの予算があるのかといった情報を、それぞれに共有してコモングラウンドを確立する。そしてその上で、互いの目標達成に向けて、さらにコモングラウンドを発展させていく。

続いて、「会話」は、以下のように書かれている。

会話の場合は、対話とは対照的に、有益なコモングラウンドを構築していくこと自体が主たる目標であり、（中略）見知らぬ人との間であっても、話が弾み、発展して、いい経験ができれば大成功ということになる。

P.46

つまり、対話においては、コモングラウンドの形成・発展は、目的実現のための手段でしかないが、会話においては、コモングラウンドの形成・発展そのものが目的である、ということである。

ここからは私見だが、「対話」においては、コモングラウンドの形成の過程や質はそれほど重要視されないのかもしれない。
例えば、ECサイトでの商品購入を「対話」と捉えてみる。ユーザ側は、欲しい商品のキーワードや価格帯を選択し、サイト側は、ユーザの要求に合った商品を提示する。それと同時に、サイト側は、関連商品や類似商品も提示し、ユーザは気に入ったものがあればクリックし、商品を探していく。
この過程は、コモングラウンドの形成と言えるとは思うが、その過程は味気なく、また、質としても乏しいものと感じる。しかしながら、ECサイトでも満足感のある買い物ができる場合もあり、その時に、コモングラウンドの形成の過程や質に強く不満を言う人はいないと考える。

一方で、「会話」ではそうはいかない。というのも、当然ながら、コモングラウンドの形成の過程や質そのものが、「会話」の成否や満足感に直結するものであるからである。

コモングラウンドは「VUCA」

続いて、「会話」が難しい要因について見ていく。

会話が、コモングラウンドの形成・発展そのものである、ということを上述したが、その会話の核である『コモングラウンド』は、その性質ゆえに、扱うことがが難しい。（これは、AIに限った話ではなく、人がコモングラウンドを扱おうとした場合も同様である。）

著者の西田氏は、コモングラウンドを『常に揺れ動く頼りないもの』と表現している。
また、現代社会を表す言葉として、Volatility（変動性）、Uncertainty（不確実性）、Complexity（複雑性）、Ambiguity（曖昧性）の頭文字をとって「VUCA」という言葉があるが、コモングラウンドも「VUCA」であるという。

変動性：会話が進むにつれて、時々刻々と変化していく
曖昧性：会話をしている当事者間でも、明確に共有される訳ではなく曖昧である
不確実性：曖昧な中でも手探りで、形成、発展させていくものである
複雑性：人の組み合わせの数だけ、異なるコモングラウンドが存在する

これらの性質からわかるように、ある会話のコモングラウンドを扱おうとしても、コモングラウンドを明確にすること自体が容易なことでなく、それを時間に沿って追おうとすれば、なおのこと大変な取り組みとなる。さらには、人の組み合わせの数だけコモングラウンドが存在するとなれば、その困難さはより増していく。

心の理論

「会話」が難しい要因は、コモングラウンドの性質だけではない。
人は、会話を円滑に進めるために、また、コモングラウンドを形成していくために、さまざまな情報、経験、ルールを活用している。例えば、ジェスチャーや視線、社交辞令などである。
こうしたものが、会話やコモングラウンドの形成に「必要」かどうかという点は、意見の別れるところかと思っているが、少なくとも人間同士と同じように「会話」をしようとした場合には、必要もしくは重要になってくる。

ここでは、その一つである「心の理論」について簡単に紹介する。

心の理論とは、他者の心を類推し、理解する能力である。

脳科学辞典「心の理論」

心の理論の説明では、「サリー・アン課題」が有名と思うが、本書においては「マキシ課題」で説明がなされていた。（論文としては、マキシ課題の方が早いようなので、そのためかもしれない。）
いずれにせよ、（少なくとも私の理解では）ほぼ同じで、以下のようなものである。

登場人物は二名（AとB）。AとBの前には、箱が複数ある（a, b, c）。
Aは、持っているおもちゃを箱aに入れて、部屋から出ていく。
Bは、そのおもちゃを箱aから出し、箱bに入れる。
Aが戻ってきて、おもちゃを取りだそうとする。

さて、この時、Aはどの箱を開けるでしょう？という問題である。そして、「箱a」と答えられる場合に、心の理論を身につけている、と考える。実験によれば、４〜６歳で身に付くものとのこと。

上記は「他者がどう行動するか」に関するものであったが、人は、他者の感情についても、類推し、理解する能力を持っている。

アンドリュー・オートニーらは、ある「出来事」とそれに対して抱く「感情」との関係を、決定木的なルールで記述した「OCCモデル」というものを提案した。
このモデルでは、出来事の結末やその性質に応じて、抱く感情を18種類に分類する。例えば、「結末が悪い」「他者にとって望ましい」出来事は、「悔しい」感情となる。同じく「結末が悪い」出来事でも、「他者にとって望ましくない」出来事は、「憐れみ」の感情となるという。（何となく納得感はあるように思う。）

個人的には、出来事に対してルールベースで感情を類推可能ということで、簡単にプログラムとして実装できるのでは？と思い、とても興味が湧いた。
一方で、ルールの分岐条件になっている「他者にとって望ましい」かどうかを判断することは、心の理論を要するものであり、やはりそんなに簡単なものではなさそうである。

以上で見てきたように、人は他者の行動や感情を、（基本的には）大きな困難なく、類推し理解することをやってのけている訳だが、改めて考えると、それほど簡単ではないように思えてくる。
心の理論を含む、さまざまな情報、経験、ルールを前提として、会話やコモングラウンドの形成がなされていると考えると、確かにそれは難しそうだという感覚が増してくる。

著者の回答

AIとの会話がうまくいかないと感じるのは、私たちとAIとの間で共有された想い　ーコモングラウンドーの形成と更新がうまく行われているという実感がないからだ。

P.25

本書は、とても読み応えがあり面白い内容と感じたが、一点だけ少し残念なのが、タイトルの「AIが会話できないのはなぜか」に対する明確な回答はないように見受けられることである。
回答があるとすれば、上記の引用部分や、コモングラウンドはVUCAでありそもそも扱うこと自体が難しいといった部分かと思う。

本書後半において、従来の会話システムやAI技術の説明があるが、それらでは出来ない理由については特に記載がない。（AIスピーカーを少しでも使ってみれば、現在のAIでは「会話」が出来ないことは自明、といった雰囲気を感じる。）

著者が伝えたいことは、技術レベルうんぬんではなく、『コモングラウンド』というピースが抜け落ちているよ、ということなのかとも感じており、「現在のAIで出来ない理由について記載がない」と言うことは的外れなのかもしれないとも思わなくはないが…。

おわりに

頭の整理も兼ねて、重要と感じた部分、興味が湧いた部分を中心に、まとめてみた。とても面白い本なので、気になった方はぜひ読んでみて欲しい。

蛇足①

本書の終わりの方で、MicrosoftのXiaoice（シャオアイス）が紹介されていた。本書によれば、Xiaoiceには「共感コンピューティング」なるものが実装されているとのこと。
Xiaoiceは、日本においては「りんな」として知られており、LINEで簡単に会話することができる。ということで、早速友達登録して会話してみた。

私「悩みを聞いてくれたりするもの？」
りんな「もちろん、聞くよー!」
私「優しんんだね」
りんな「はい!よろしくです」

んー、やっぱりこんなもんなのかなぁ…という印象を受けた。
が、Xiaoiceについてはまた今度調べてみたいと思った。

蛇足②

「会話」と「対話」は異なるという話を読んで、母親との会話を思い出した。

実家に暮らしていた際、母親はパート先の愚痴を話してくることが多かった。それに対して私は、「相手にこんな風に伝えてみれば？」とか「パート先変えた方がいいんじゃない？」とか解決策的なものを提示して、母親の機嫌を損ねることが多々あった。

母親とのやりとりを、私は「対話」として捉えていたが、母親は「会話」を求めていたのかもしれない。
実家に帰ったら「会話」を心がけようと思った。