RVCで歌わせよう改訂版２（RVC v2使用）

peppe

2023年7月16日 00:04

アップデート来たよ。

流行に乗り遅れていてRVC v2が出ていることを知りませんでした。

知ったらやるしかないよね。
めっちゃ性能上がってるし。
一番でかいのは声がかすれなくなったことかな
性能チェック↓

RVC v2レベル高い pic.twitter.com/pgoPnfkFnD
— prinp_san (@prinp_san) July 15, 2023

v2導入

1⃣　v2-RVC-WebUI-for-Japanese-AI-beginners.ipynb - Colaboratory (google.com)
colab版はとりあえず上のリンクに従っていけばできると思います。

ですが私はローカル版のRVCも同時に使っていきたいと思います。

ローカル導入

ローカル版を導入していきましょう。
RVC-beta.7z · lj1995/VoiceConversionWebUI at main (huggingface.co)
にアクセスしてください

アクセスできたらダウンロードしてRVC-beta.7zを任意の場所に展開してください。(7z:「7-Zip」7z形式などに対応した解凍・圧縮ソフト - 窓の杜 (impress.co.jp))
とりあえずこれで導入は完了です。

学習

学習をしていきましょう

学習のもととなる音声は、自分で録音するなりボイス集を作るなりして、10分20分の動画、を作ってください。
詳しくはRVCで歌わせようの最初を見てね。

1⃣のサイトに従ってOne-click trainingまでを終わらせてください。

One-click trainingまで終わったらclabに戻ってください。
①左のファイルを開く。
②weightsを開く
③自分が設定した名前.pthを右の三点からダウンロード。

これで学習は完了です。

ローカルに持ってくる

先ほどダウンロードしたpthを、解凍した7z内のフォルダであるweightsにコピペしてください。

コピペが完了したら一つ戻ってgo-web.batをダブルクリックして起動してください。

ここから先はcolab版のRVCは使わないので消してもokです。

歌わせる

本題です。歌わせるための準備をしていきます。
前の記事を読んだことがある人は③RVC v2まで飛ばしてください。

やること

①歌わせたい歌を決めて音源を入手する。
②音楽と歌声に分ける
③RVC v2で学習した声で歌わせる
④声と音をくっつける

①音源入手

頑張って探してください。
~~Offliberty - evidence of offline lifeを使ってつべから持ってくるとか…~~

②ボーカルリムーブ

使うのはUltimateVocalRemover
Release v5.5 - UVR GUI · Anjok07/ultimatevocalremovergui (github.com)
からダウンロードできます。
Main Download Linkを押してください。
（埋め込みリンクからもダウンロードできちゃうｗ）

イエスマンになってダウンロードが終了したら、設定をしていきます。

①　choose process methodをEnsemble Modelにします。
②　main stem pairをVocals/instrumentalにします。
③　ensenble algorithmをAverage/Averageにします。
④　Gpu Conversionをチェックします。
⑤　wavを選択します。（FLAC、mp4ではだめ）
⑤　左下のレンチを押して、Download Centerに行きます。
　　MDX-Net内の
　　- UVR-MDX-NET Inst 3
　　- UVR-MDX-NET Inst Main
　　- Kim_vocal_1
　　Demucs内の
　　- htdemucs_ft
　　をダウンロードします。

ダウンロードが終わったらavailable modelsでダウンロードしたものを選択していきます。

あとは、上部のSelect inputに消したい音源。
Select outputにエクスポートしたいファイルを設定します。
最後にVocals only(声のみ),instrumental only（音楽のみ）のどちらかにチェックを入れたら設定は終わりです。
Start Processingして完了。

③RVC v2

新しくなったところです。
やっていきましょう。

注意
自分が開いているタブがローカルのRVCであることを確認してください

個人的に変える必要があると感じたのは、下の六つです。
順番に見ていきましょう。

①音源推論
クリックして、ドロップダウンから先ほどダウンロードした.pthを選んでください。

②ピッチ変更
男性が歌っている歌を女性に歌わせる→+12
女性が歌っている歌を男性に歌わせる→-12
絶対これというわけではないので、臨機応変に対応してください。

③処理対象音声ファイルのパスを入力してください
ここには歌わせる歌のwavファイルのパスを入力。
具体的には、先ほどUltimateVocalRemoverで作った歌声のみの方のwavファイルのパスを入力してください。

④質変更
多分crepeが一番質が高いと思うのでcrepeにしましょう。
まあ、これも臨機応変に変えてください。

⑤検索特徴率
個人的には0.5から0.7付近が最適だと感じました。

⑥変換
最後にここを押して完了です。

④声と音をくっつける

ラストです。
Audacityを開いてください。
「Audacity」無料の音声編集ソフト - 窓の杜 (impress.co.jp)

Audacityに生成したファイルと、UltimateVocalRemoverで作った音楽ファイルをドラックアンドドロップ。
書き出しをしたら完成です。

間違いに気が付いた方や質問はコメントにお願いします。