野うさぎたちの脳内へ ザコアドベントカレンダー18
はじめに
前回まではぺこーらの音声に対する分析を行なってきた。しかし、「どうも」が「アーモンド」に聞こえる現象の決定的な説明には至らなかった。そこで、今回は視点を変えてみる。つまり、視聴者たちにフォーカスを当てていく。
そもそも、このような聞き間違いの原因の全てをぺこーらに求めるというのは、ファンとしていかがなものだろうか。論理的に考えても、ぺこーらが喋り、視聴者が聞くという状況なのだから、Pekora-Almond Effectはぺこらと視聴者の相互関係の内に起こると考えた方が道理に適っている。
だが、注意すべき点は視聴者は喋る側ではなく聞く側ということになる。これには音声を分析する手法は使えない。難しい言葉だが音声知覚(物理的な音の刺激が脳への神経信号として送られる過程)を考えなければならない。
音声学から音韻論へ
ここからは、音声ではなく、音韻の話へと移っていく。簡単に分ければ、音声は具体的な音の波だが、音韻とは言語を使う人間の脳内にある抽象的な音のパターンのことになる。具体例を用いて説明しよう。
人間が喋るとき、同じ単語だろうと出てくる音声というものは無数にある。女の人、男の人、若い人、お年寄り、赤ちゃん、風邪の時、酔っ払ったとき、歌うとき、朗読するとき、楽しいとき、悲しいとき……。喋る人やその人の状況に応じて発せられる音声はそれぞれ異なっている。普段はそのおかげで背後から誰に声をかけらたかとか、その人は今どういう状態なのかがわかる。しかし、ここで疑問が生じる。なぜさまざまな状況であっても、人間はその音声を意味のある文として理解できるのだろうか。例えば、女の人の「こんにちは」と男の人の「こんにちは」は違う音に聞こえるはずである。それにもかかわらず、「こんにちは」と言っていると理解できるのだ。つまり、人間は音声の絶対的な波形と頭の中の文字を一対一対応にして覚えているとは考えにくいのだ。もし、この波形は「こんにちは」である、のようなある音声と意味を対応づけた無数のレコードのようなものが全て頭の中にインストールされていて、現実に起こった音声にはそれに合致するレコードを参照するとしたら、人間の脳内はとてつもない記憶の容量を持っていることになる。それに、これでは新しい単語が一つできるごとに、「痩せた男の悲しいときバージョンその1のレコード」「太った男の嬉しいときバージョンその4のレコード」などというように夥しい量のレコードを新たにインストールすることになる。これは現実にはあり得ないだろうし、なにより我々の直感に反する。
そこで、この謎を解消する考え方として、「我々は無数にあることばの音声のうちの共通部分をてがかりに単語を理解している」というものがある。パターン認識と呼ばれるものだ。噛み砕けば、いろんな人の言う「こんにちは」には、人それぞれな部分と、どんな人が言っても共通している特徴があって、その特徴の差でどんなことを喋っているかを特定している、という考えだ。たとえば、喋る時の口の中の形は、人によって大きさはまちまちだ。赤ちゃんと成人では骨格的に大きく異なるだろう。けれども、舌のの動かし方や、それぞれの口の大きさあたりの開き具合の比率はだいたい一定である。そういった、相対的な音波の特徴だけが頭の中にインストールされていれば、なにも全ての音を記録しておく必要はなく、その都度その都度で何を言ったかを判断できるのだ。
それに、よくよく考えてみれば単語の組み合わせによって現れる波形が違った音声でも、同じ言葉として認識できるのだ。
例えば「3歳」と「3倍」では、「3」の発音が違う。「3歳」の場合は[sansai]だが、「3倍」の場合は[sambai]となる。これは、前者は「ん」の後が舌と歯茎で出す音の[s]の音であるからそれに近い[n]が使われていて、後者は唇を閉じて離す[b]の音だから同じく唇を閉じる[m]の音になっている。しかし、聞き手の頭の中ではどちらもしっかりと「3」という数の概念として理解される。つまり、人間が話し言葉を理解するときは音声の層と頭の中の層で二つのレベルが存在していることになるのだ。
頭の中の辞書
前節では音声の層と脳内の層の話は別だという考え方を紹介した。ここからは、脳内の層の話に補足をしていく。ここまでで覚えてもらいたいのは、とにかく、さまざまな音の特徴から、頭の中に記憶しているこれだ!という単語を思い浮かべるまでが人間が言葉を聞くときの過程であるということだ。では、その過程はどのようになっているのか、それを詳しくみていく。
まず第一ステップとして、ある音の波が耳に届く。そして、第二ステップとして、その音波の相対的な特徴を捉える。第三に、その相対的な特徴(パターン)ともっとも近い単語が頭の中で閃く。そして、最後に文全体のバランスに合わせて修正がされる。といった流れである。
第3ステップで「閃く」と書いたが、これは文字通り、その文字を記憶している脳細胞が活性化するらしい。問題なのは、その文字の記録がどのように格納されているかである。これがどうやら、意味と音声の特徴が近いものほど隣接して格納されているということがわかっている。時間がある時にしっかりと実験を補足して更新するが、意味や音声の特徴が似ている単語リストとそうでないリストの反応時間を比べる実験などから裏付けがされている。つまり、「火」「燃焼」「やけど」などは比較的近いところに格納されており、「火」を記録している細胞が活性化しているとき、「燃焼」「やけど」なども弱く活性化しているようだ。そして、音声の面から言えば「ペット」や「ベット」、「かき」や「あき」なども同様だ。
そしてまた、よく慣れ親しんだ言葉の方が活性化しやすいと言う点も重要だ。よくあるのは「どんぐりころころどんぶりこ」を「どんぐりころころどんぐりこ」と歌ってしまったり、「うさぎ追いしかの山」を「うさぎ美味しかの山」と思い込んでしまったり、と、聞き慣れないフレーズを聞き慣れたフレーズとして解釈してしまうようなエラーが起きることだ。このポイントは「どうも」を「どうも」として聞く人の根拠としてまた登場するので、頭の片隅に入れておいて欲しい。
おわりに
今回は、音韻論という新しい視点でもってPekora-Almond Effectを考えるために予備知識を紹介する回となった。次回もこのような知識の紹介の回になってしまうが、お付き合いいただきたい。
この記事が気に入ったらサポートをしてみませんか?