見出し画像

RVCの声質を音程によって変化させる研究をしてみた

初めまして、Neroです。
この度、RVC技術にどハマりしており、いろいろな技術を試しております。

元々、音楽をやってきたこともあり、この技術には大きな期待を感じています。
例えば、MIX前の声質→MIX後の声質に変換することも出来たり、スタジオで録音したノイマンのコンデンサーマイク&プリアンプで自分の歌声のモデルを作っておくことで、iPhoneで録音した音声でも、実際の現場に使えるレベルのクオリティにすることが出来たり、まさに魔法のような技術だなと考えております。

ところで、AI声作り研究会で、色々お話しさせていただく機会があり、一つ疑問に思ったテーマがありました。
それは、「AIは声のピッチを分けて学習しているのか」ということです。
少しわかりにくいですね。
具体的には、歌声で高い声と低い声の違った声質の人のデータを学習させると、どのような結果になるのかが気になりました。
その人は高い声で歌ったデータと低い声で歌ったデータは違った声質となルトします。
そのデータをどちらも学習させると、次の1か2どちらになるか気になったわけです。
1:全ての音程で二つの声質をミックスした声になる
2:それぞれの特徴はミックスされず、音域によって、違った特徴が現れる。

この論点は結構重要で、歌声に応用するときに、例えば、裏声のデータを含めると、モデルの精度が下がるのか下がらないか問題などにも関係してくる話です。

結論から言うと2番の『それぞれの特徴はミックスされず、音域によって、違った特徴が現れる』といった結果になりました。
但し、低い音域だと、高い方の影響を受けました。(これも後で解説します)

結果を聞きた方はYoutubeをご覧ください。

実験方法は以下の通りです。

  1. A3を基準に、ボーカロイドの音声(IAとv4_flower)を使ってデータセットを作成。声質が異なるため、実験に適していると考えました。

  2. RVCを讃える歌を作成し、それぞれ1コーラスを半音ずつ上げて7個のデータセット✖️二個を作成。

  3. A3で音程が被らないように二つのボイスバンクの音程を完全に切り離し、生成されたモデルがどのように動くか確認。

A3以上の音域で歌ったデータとA3以下の音域で生声で歌ったデータを使って、それぞれの特徴が分かれるかどうかを耳で聞いて実験しました。結果として、A3以上の音域はIAの声が、A3以下の音域はflowerの音が出力されましたが、低音の部分にIAの声が少し混ざっているように感じました。

この結果は、低音が高音の倍音を含むことが原因だと考えられます。声は主音に加えて倍音が含まれるため、低音の部分に高い方の倍音がIAの声として含まれているのです。一方、高音の部分には低い方の基音が存在しないため、低い方の音程が含まれていません。

この実験から、AIが声のピッチを分けて学習することがわかりました。また、低音域では高音域の影響を受けることが明らかになりました。この知見は、歌声のモデルを作成する際に、裏声などのデータを含めることがモデルの精度に影響を与えるかどうかを考慮する際に役立つでしょう。

RVC技術は、音楽制作やAI声作りにおいて多くの可能性を秘めています。今回の実験はその一例に過ぎませんが、今後もさまざまな実験や応用方法を試しながら、この技術の可能性を追求していきたいと思っています。


いいなと思ったら応援しよう!