見出し画像

30代男性の早口はどこまでMMVC1.5で変換できるのか検証してみた

MMVCというリアルタイムボイスチェンジャーの実験をしてみたので記録を放流する。個人的にボイチェンの進化にはすごく興味がある。今後、AIの進化によってディープフェイクが溢れるのは間違いないと思うが、音声変換は一つの重要なモーダルを担っている認識だ。ひと昔前のボイチェンはピッチとフォルマントをうまく変換するだけという印象だった(VT-4など)が、最近はなんとニューラルネットベースのボイチェンもほぼほぼリアルタイムで動くようになってきたらしい。

MMVCはIsletennos (https://twitter.com/IsleTennos) さんという方を中心に開発が進んでいるOSSのボイチェンで、ほぼリアルタイムで動かせる。モデルの学習は必要だが、変換元の音声と変換先のターゲットの音声を十分に集めれば声質を変換できる(v1.5からは読み上げ音声に対応するテキストデータすらいらなくなる、すごい)。バージョン1.5がアーリーアクセスとなりSiFiGANという2022年10月末にペーパーが出たニューラルボコーダーが搭載された。

元論文「Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural Vocoder」は名古屋大とMeta Reality Labの研究者の方が発表していて、音声系の有名な国際学会であるICASSP 2023にもAcceptされている。

Google Colaboratoryで学習も完了するので利用もお手軽、ということで早速いろいろパラメータを変えてどうやれば上手くいくのかを試してみた。導入方法についてはYouTubeとかで色々動画が上がっていてとっても親切。

どういうパラメータでどうやるといい感じに変換できるのかを試行錯誤してみた。自分が早口なので、早口でしゃべったデータを使って、変換してみた実例が下記である。

  • v1.3はビブラートがかかってしまう不自然さがある

    • 「あのーーーー」が、「あぁのおぉぉおぉ」みたいになる

  • 読み上げデータの追加はv1.3だと若干流暢さが上がった感覚を覚えるが大勢に影響なしか

  • v.1.5にするとビブラートはなくなったが、元話者の特徴が大きく出てしまうので可愛いさでいうと実はv1.3の方が可愛いかもしれない

  • v1.5はノイズが生成されまくる問題があった

    • 後ろで車のエンジンや電動ノコギリみたいな音がする

    • 話し声みたいなやつもある

  • v1.5でDenoiseしてからMMVC変換すると結構ノイズが減っていい感じ

  • v1.5でDenoiseしてからMMVC変換し、さらにDenoiseすると一番良い感じになった

  • 学習のStep数が増えても(g/melもへってるんだけど)全然違いは聞き取れなかった

結論、100文読み上げを元に学習させ、変換前音声も変換後音声もDenoiseを十分にかけてあげるといい感じになるのでは?

  • 読み上げは100文だけでもいい気がする

    • 個人的に324文読み上げはコスパが合わない印象

  • 声の揺れがなくなって安定するのでv1.5が良さそう

  • 変換前も変換後もDenoiseすると聞きやすくなる。学習のステップ数

あくまで自分のデータと自分の耳で、という話ではあるのでご注意いただきたい。音声変換はg/melと呼ばれる指標で評価を行うものの、あんまり人の耳の感覚とアラインしないので、なかなか難しいなあと思った。