外国語学習と聴覚情報処理


僕は語学が苦手です。
でも、生活にほぼ支障なく使えるようになった言語が英語以外に一つだけありました。
全く流暢でないし、すらすら聞き取れないけど、相手が話している意味はわかりました。
音声以外のシチュエーション、雰囲気、目的、面子など付随情報を同時に処理して音声を解釈している可能性はないでしょうか。

僕の上司で耳が聞き取りにくい方がいました。(先天性ではなくて加齢性だと言っていました。)
でも専門的な会話はできていました。

ただ、たまに全然関係ない話題を振ると、「え?〇〇?」(〇〇は似たような発音の意味が異なる単語)と問い直すことが多かったです。

一つの想像ですが、とても知能の高い人だったので、後から考えると、断片的にしか言葉が聞こえていなくても、文脈によって頭の中で再構成して理解していると考えられます。

後者のエピソードは、文脈をいきなり外れると、迷ってしまい、単語を正確に聞き取れなくなったことなのかなと思いました。

脳は言葉を認識する時、次に来る単語の出現確率を計算しながら、予測しているとされています。

また、今日はいい天気ですという文があったら、一つ一つの音声をバラバラで順次処理するわけではなく、今日、は、いい、天気、ですと、次に来る音声の出現確率が高いものは、まとめて処理できるようになっているとのことです。

これは、なんとなくわかりますよね。逆に、きょ、う、と認識していると、途切れてわかりづらくなります。
https://amzn.asia/d/0u9U0FO

となると、先の音が聞き取りづらい上司の会話は納得がいきます。

聞こえづらいところがあっても、まとまって処理しているおかげで、欠損部分を飛び越して全体として整合性のある形で処理しているのかもしれません。

ただ、これだけではないかもしれないというのが今回のテーマです。

最近の英会話学習サービスでは、英会話の音声をAIで生成して、会話の練習をするというものがあります。

一例
https://app.speakbuddy.me

棒読みに近いですが、一応会話はできますし、発音される音声は確かに外国人の声です。

本当にこれが学習に効果的なのでしょうか。

というのも、批判したいわけではなくて、
使ってみて、何かが足りないと気づきました。

前提として僕はかなり語学が苦手です。
英語も認識能力が80%くらいに下がります。
英語の表現はわかっていても、次に来る分が前の文と矛盾するように感じたりして、うまく理解できないことも多いです。

ただ、生活にほぼ支障なく使えるようになった言語が一つだけありました。
それは留学先で習得したスペイン語で、初めて異国の地でスペイン語ばっかりの土地でひたすら毎日暗記して勉強しました。

で、数ヶ月経った後、研究室でメンバーが何を言っているかわかるようになってきました。

全く流暢でないし、すらすら聞き取れないのです。単語や言い回しの経験も少なく、言葉の細部はわかりません。でも何がしたいのか、何を言っているのかの意味はわかるという不思議な状態でした。

また、電話だけだと難しいですが、実際の会話の場になるとなんとなくわかります。

実は、会話のために処理しているのは、音声だけではない、という可能性はないでしょうか。

僕が、その際に意識していたのは、何を持って話しているのか、どの場か、空気は、誰から誰に話しているのか、といったシチュエーションの情報です。
音声では知らない単語や言い回しが出てきてわからない部分が多いが、仕事をしてなんとか相手の言っていることを理解しないといけないプレッシャーがあると、そういった他の情報にも注目せざるを得なくなっていたのです。

ジェスチャーなどは、触れている研究もありますが、
僕がここで提示したいのは、情報を伝える行為に関連したものではなく、一緒に眺めている風景、現在の置かれている状況など、もっと他の複雑な情報についてです。
https://www.myk.dis.titech.ac.jp/2007hp/paper/lecture/2005/lecture_2005_10.pdf

そこから類推すると、今は事務手続きについて話している、したがってこの言葉はこういう意味だとか、同じような発音の単語があるが今はこっちの単語だと判断できている可能性はないんでしょうか。

例えば、会話の空気上、ありえない言葉が出てきたら、「え?あの〇〇?別の●●かと思ったよ」と言った聞き取り違いみたいなことが起きたりしませんか。

例えば、視覚情報については、網膜で感知された情報が大脳の中でどのように処理され、ものが見えるという状態になるメカニズムがわかっていたりします。(ものを検知すると、ものが見えるは別であるということです)

ところが、カンデル神経科学を読んでも、音声を他の情報と統合して解釈に役立てているという研究やらが一切出てきません。

音声の高次機能処理について、知っている方がいらっしゃったらTwitterのDMをお願いします。

もし、他の情報もミックスして解釈に役立てている場合は、例えば、語学学習において、音声のみで学習したケースと、リアルの人と会話して学習したケースで、学習効率が違うといった現象が起きたりしていないかに興味があります。