見出し画像

Pre-training Approaches for Voice Conversion to Address Data Scarcity and Their Applications to Ground-Truth-Free Tasks

2023年度研究会推薦博士論文速報
[音声言語情報処理研究会]

HUANG Wen-Chin
(名古屋大学大学院情報学研究科 助教)

邦訳:音声変換におけるデータ不足に対処するための事前学習法と入手不可目標データ課題への応用

■キーワード
音声変換/音声処理/事前学習

【背景】音声変換技術を医療や教育分野に応用することが期待されている
【問題】音声変換の実世界応用は常にデータ希少性に困っている
【貢献】事前学習法による効率的な音声変換システムを提案した

 本研究では,音声変換という技術に取り組んでいる.音声変換とは,入力された音声に対して,何を話しているかという情報を保持したまま,所望の情報を自在に変換する技術である.漫画「名探偵コナン」の主人公・江戸川コナンが眠りの小五郎で推理をする際に使用する「蝶ネクタイ型変声機」は,まさに音声変換技術を実現するアイデアである.

 一見,漫画で出てくる小道具にしか使えないが,音声変換はさまざまな応用技術,特に医療や教育分野への展開が期待されている.たとえば,失われた声を取り戻すことを最終目的とした発声障がい者補助や,外国語発声の母国語訛りを緩和するアクセント変換技術など,実世界応用技術として活用するポテンシャルが大いにある.一方で,実応用においては,深層学習を用いる上で必要となる十分な量の音声データを入手できない状況が多々存在するため,柔軟性・利便性の高い学習処理の実現が期待される.

 本研究では以下の2つの手法を提案した.
(1)系列変換モデルのための事前学習法
(2)自己教師あり学習潜在表現を活用した音声変換基盤技術

 (1)の手法では,声質のような静的な音声特徴に加えて,韻律のような動的な音声特徴も制御可能な音声変換処理を実現するとともに,少量の音声データの活用を可能とする事前学習法を提案した.(2)の手法では,ここ数年で人工知能分野で盛んに研究されている自己教師あり学習による潜在表現獲得に着目し,自己教師あり学習潜在表現を活用した音声変換基盤技術を世界に先駆けて提案した.国際的自己教師あり学習に基づく音声処理に関するベンチマーク構築活動SUPERBに貢献するために,自己教師あり学習潜在特徴を活用した音声処理ツールキットS3PRLに実装することで,オープンソースS3PRL-VCとして公開した.

 以上の手法を基に,以下の2つの実世界応用に適用した.
(1)構音障がい患者に対する発声支援技術
(2)外国語発声の母国語訛りを緩和するアクセント変換技術

 (1)の応用では,台湾のトップ研究機関の1つであるAcademia Sinicaと台湾の病院である奇美病院と協力して,身体的制約を超えた発声機能拡張を実現するために,深層系列音声変換に基づく静的・動的音声特徴量変換と教師なし深層音声変換に基づく 静的音声特徴量変換を組み合わせることで,患者の個人性を保持したまま構音障がい音声を通常音声へと変換する技術を提案した.また,オランダのデルフト工科大学およびオランダ癌研究所との共同研究を実施し,医療現場で求められている技術として,患者音声による構音障がい音声シミュレーション技術を構築した.(2)の応用では,能力的制約を超えた発声機能拡張として,外国語発声の母国語訛りを緩和するアクセント変換技術に関する研究に着手した.

■Webサイト/動画/アプリなどのURL
系列音声変換研究の音声サンプルWEBサイト:https://unilight.github.io/Publication-Demos/publications/vtn-taslp/index.html
自己教師あり学習潜在表現を活用した音声変換研究の音声サンプルWEBサイト:https://unilight.github.io/Publication-Demos/publications/s3prl-vc/index.html
構音障がい患者に対する発声支援技術の音声サンプルWEBサイト:https://unilight.github.io/Publication-Demos/publications/dvc-vtn-vae/index.html
https://unilight.github.io/Publication- Demos/publications/n2d-vc/index.html
外国語発声の母国語訛りを緩和するアクセント変換技術の音声サンプルWEBサイト:https://unilight.github.io/Publication-Demos/publications/fac-evaluate/index.html

(2024年5月17日受付)
(2024年8月15日note公開)

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
 取得年月:2024年3月
 学位種別:博士(情報学)
 大学:名古屋大学

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー

推薦文[メディア知能情報領域]音声言語情報処理研究会
本論文では,話している内容は変えずに,話し手や話し方などの情報を自由に加工する音声変換技術に関する研究に取り組んでいます.最先端の人工知能技術を活用した基礎技術を提案するとともに,発声障がい者の健常音声や流暢な外国語音声など物理的に入手不可能な音声への変換も可能とする応用技術を提案しています.

研究生活  学部時代のゼミで研究をやってみたら,知りたいことを科学的な方法で知ることができるという面白さを感じて,進学することにしました.

コロナ禍のため,約2年半の間にずっと母国の台湾にいました.情報学なので,パソコンがあればどこでも研究できるとのことはありますが,5年の大学院留学の中で半分は母国にいることは,まるで「母国で留学する」ことになってしまいました.心の中でやはり少し残念な気持ちがあります.

自分は研究以外,アマチュアストリートダンサーとして活動しています.名古屋のストリートダンスコミュニティーに馴染んでおり,ダンスに通していろんな人と出会えて,友だちになることができました.自分の中で,ダンスは留学生活の支えであると言っても言い過ぎではありません.

自分の研究は,他の国の研究者との共同研究が多く,いろんな国の人と一緒に研究できるのが楽しいです.海外の研究機構や大手会社などにインターンシップをしに行って,研究をしながら異国の文化を体験できるのも研究の醍醐味でした.