fMRI→AIベース・デコーダ→音声再構成:ただ、まだ、個別学習が必要な段階


https://www.nature.com/articles/s41593-023-01304-9.epdf

Tang, Jerry, Amanda LeBel, Shailee Jain, and Alexander G. Huth. “Semantic Reconstruction of Continuous Language from Non-Invasive Brain Recordings.” Nature Neuroscience, May 1, 2023. https://doi.org/10.1038/s41593-023-01304-9.

解説記事:AI makes non-invasive mind-reading possible by turning thoughts into text | Artificial intelligence (AI) | The Guardian

脳活動を連続したテキストに変換するAIベースのデコーダーが開発され、人の思考を初めて非侵襲的に読み取ることができるようになりました。

このデコーダーは、fMRIスキャンデータのみを用いて、人が話を聞いている間、あるいは黙って想像している間に、驚くほどの精度で音声を再構成することができました。これまでの言語解読システムは、外科的な埋め込み手術が必要でしたが、今回の進歩により、脳卒中や運動ニューロン疾患で意思疎通が困難な患者の発話を回復する新しい方法が期待されます。

テキサス大学オースティン校でこの研究を主導した神経科学者のアレクサンダー・フート博士は、次のように述べています: 「これほどうまくいくとは、ちょっとショックでした。私は15年間この研究に取り組んできました......ですから、最終的にうまくいったときは衝撃的であり、興奮しました "と述べています。

この成果は、fMRIの基本的な制限を克服したもので、この技術は信じられないほど高い解像度で脳の活動を特定の場所にマッピングできる一方で、固有のタイムラグがあり、リアルタイムで活動を追跡することは不可能であるということです。

このタイムラグは、fMRIスキャンが脳活動に対する血流反応を測定するために生じるもので、約10秒かけてピークに達し、ベースラインに戻るため、どんなに高性能なスキャナーでもこれを改善することはできない。つまり、どんなに高性能なスキャナーでも、この遅れを改善することはできないのです。「神経活動の代用品として、ノイズが多く、遅々として進まないのです」とフートは述べています。

このハードリミットは、数秒間に広がる「情報の寄せ集め」であるため、自然な音声に反応する脳活動を解釈する能力を妨げてきました。

しかし、OpenAIのChatGPTを支えるAIである大規模言語モデルの登場により、新たな道が開かれました。このモデルは、音声の意味を数値で表現することができるため、科学者たちは、活動を一語一語読み上げるのではなく、特定の意味を持つ単語列に対応する神経細胞の活動パターンを調べることができるようになりました。

3人のボランティアが16時間ずつスキャナーに横たわり、ポッドキャストを聴くという集中的な学習が必要でした。デコーダーは、ChatGPTの前身であるGPT-1という大規模な言語モデルを用いて、脳活動と意味を一致させるように訓練されました。

その後、同じ参加者が新しい物語を聴いたり、物語を語ることを想像したりしてスキャンし、デコーダーを使って脳活動のみからテキストを生成しました。その結果、約半分の確率で、テキストは元の言葉の意図した意味と密接に、時には正確に一致しました。

「私たちのシステムは、アイデア、意味、意味のレベルで動作します」とHuthは述べています。"これが、正確な言葉ではなく、要点を抽出する理由です"。

例えば、ある参加者に「私はまだ運転免許を持っていない」という言葉を聞かせたところ、デコーダーはそれを「彼女はまだ運転を習い始めてもいない」と翻訳しました。また、「叫べばいいのか、泣けばいいのか、逃げればいいのか、わからなかった」という言葉もありました。その代わり、"私を一人にして!"と言いました。"叫び始め、泣き始め、そして彼女はただ "私を一人にしてと言った "とデコードされました。

また、参加者はスキャナーに乗ったまま、4つの短い無音のビデオを見るように言われましたが、デコーダーは彼らの脳活動を利用して、いくつかの内容を正確に説明することができたと、Nature Neuroscience誌の論文で報告されています。

「非侵襲的な方法としては、一般的に単語や短い文章で表現するこれまでの方法と比較して、これは本当に飛躍的な進歩です」とHuthは述べています。

Translated with DeepL


ここでは written with Google Bard

テキサス大学オースティン校の研究チームは、脳の活動を連続したテキストストリームに変換できるAIベースの新しいデコーダを開発しました。このデコーダーは、スキャナーに横たわった状態でポッドキャストを聴いた3人の参加者のfMRIデータで訓練されました。そして、デコーダーは、参加者が新しい物語を聞いているときや、物語を語ることを想像しているときでも、元の言葉の意図する意味に近いテキストを生成することができました。

解説

これは、ブレイン・コンピューター・インターフェースの分野で重要なブレークスルーとなるものです。脳活動をリアルタイムで解読できるようになれば、脳卒中や運動ニューロン疾患で言葉を発することができない人の支援など、幅広い応用が期待できます。また、脳がどのように言語を処理するかについての理解を深めるためにも利用されるかもしれません

しかし、このデコーダーはまだ開発の初期段階であることに注意が必要です。機能的近赤外分光法(fNIRS)など、他のタイプの脳画像データとの相性はまだ明らかではありません。さらに、デコーダーは個人ごとにカスタマイズされるため、脳活動の解読に使用する前に、各人のデータで訓練する必要があります

全体として、これはコミュニケーションがとれない人を助ける新しい方法につながる有望な開発である。しかし、臨床の場で使用する前に、デコーダーの精度と信頼性を向上させるためにさらなる研究が必要である。

ここでは、この研究の意味について、さらにいくつかの考えを述べます:

この技術は、脳卒中や運動ニューロン疾患によって言葉を発することができない人を助けるために使われるかもしれません。
また、脳がどのように言語を処理するかについての理解を深めるためにも利用される可能性があります。
しかし、このデコーダーはまだ開発の初期段階であり、臨床の場で使用する前にさらなる研究が必要であることに留意する必要があります。

Translated with DeepL

いいなと思ったら応援しよう!