見出し画像

No.05:脳波から発話内容を再構成|今週の論文

世の中には病気等の影響で自分の意思を言葉にできない人が少なくない。

そのような人が自由にコミュニケーションができるように、そのような人の言葉にならない思いを拾うために、科学のチカラでどうにかならないものか。

No.05:脳波から発話内容を再構成

前回に続きデコーディングの論文。

前回は音声を聞いた時の脳波から音の再構成をおこなった論文だったが、今回の論文は言葉を発している時の脳波から発話内容の再構成をおこなった。

前回同様ECoG(頭蓋内にシート状の電極を埋め込んだ脳波計)を用いて実験をおこない、解析はDNN(Deep Neural Network)を用いておこなった。
発話中の神経活動から高品質な発話をDNNを用いて再構成したのはこの研究が初めて

この論文では被験者は言葉に麻痺のない患者だった。
しかし、発話に関する障害を抱えた人に対する、話そうとしている内容のデコーディング研究がおこなわれている。

このような研究が進めば、障害の有無にかかわらず円滑なコミュニケーションができるようになるかもしれない。


Speech Synthesis from ECoG using Densely Connected 3D Convolutional Neural Networks
(Miguel Angrick, Christian Herff, Emily Mugler, Matthew C. Tate, Marc W. Slutzky, Dean J. Krusienski and Tanja Schultz, 2018)

背景
これまでの研究により、まだ複雑なダイナミクスは理解されていないものの、発話デコーディング技術は進歩している。
しかし、単純な線形回帰モデルが神経活動と連続的な発話との間の関係を捉えることができるとは考えにくい。

実験
6人の被験者は画面に表示された単語を読み上げる。
このときの脳波をECoGを用いて計測し、同時に発話音声の記録もおこなった。

解析
DNNを用いて発話関連領域のECoGデータを発話の中間表現(logMel: 声道成分に由来した周波数特性を表現したスペクトログラムのうち、ヒトの聴覚上重要な成分を引き延ばしたもの)にマッピングした。
このとき用いたDNNは少量データによる処理に適した、DenseNet(Densely Connected Convolutional Networks)を使用した。

結果
元のlogMelと再構成したlogMelでr=0.69の相関が見られ、すべての被験者においてchance level を上回る結果となった。
さらに、Waveney vocoderを用いて可聴波形に変換し、実際の波形と類似した結果が得られた。

結論
ECoGとDenseNetを用いて脳波から発話内容の再構成をおこなうことができた。

いいなと思ったら応援しよう!