
RVCで歌わせよう
最新のnoteにはさらに質の高い歌わせ方などが載っています。
導入はだだっこぱんださんのFANBOXを見るとわかりやすいです。
エラーが起きた際は、エラーの文をそのままchat GPTにコピペすると結構な確率で解決してくれます。
好きな人、キャラに歌を歌わせよう!
手順1
まず、歌わせたい人がしゃべっている動画、音声ファイルを最低20分間分ほど用意します。
(経験上、20分ほどあればそれなりのクオリティの学習ができるため)
素材の注意点としては
①bgmや雑音などは極力減らす。
②5~15秒位の音声を20分分集めるなどでも可
などがあります。
手順2
Audacityをダウンロードします。
「Audacity」無料の音声編集ソフト - 窓の杜 (impress.co.jp)
先ほど用意したファイルをAudacityにドラックアンドドロップ(動画の場合は音声ファイルに変換してください。)
手順3
Audacity内で無音部分をカットしていきます。
まず、エフェクトタブを開きます。

次に、特別→無音の切り詰めを選択します。

脳死適用でok

処理が終わったらファイルタブ→書き出し→WAVとして書き出すを選択します。

手順4
RVCで学習をさせます。
RVCを起動してください。
起動後は真っ先にTrainingタブに向かってください。
その後の操作は
①モデルの名前を入力(大体何でもok)
②先ほど書き出したWAVのパスをDataset globに入力
③学習開始

手順5
歌わせる歌の準備をします。
ボーカルを抽出し、AIが楽器などの音を声だと認識させないようにします。
歌わせたい歌の音声ファイルを準備してください。
準備ができたら
ボーカル リムーバー [AI]|無料オンライン (vocalremover.org)
にドラックアンドドロップ。
処理が終わった後の操作は
①フォーマットがWAVであるかどうかを確認する。
②,③音楽とボーカルをそれぞれ保存する。(音楽+ボーカルは保存しなくていいです。)

手順6
学習が完了した後(Statusのオレンジ色の枠が消える)、Interfaceタブに移動します。
その後の操作は
①のボタンをクリック。
②Modelで先ほど決めた名前のpthファイルを選択。
③先ほど保存したボーカルのファイルのパスを入力。
④生成
生成が終わったら完成したファイルを保存してください。

あまり納得のいく出来にならなかった場合は、Transposeで声の高さをいじってみてください。
それでも納得がいかない場合は、学習させるファイル内の喋りを増やすなどし、もう一度学習させてみてください。
手順7
Audacityを開いてください。
Audacityに生成したファイルと、ボーカルリムーバーで作った音楽ファイルをドラックアンドドロップ。
書き出しをしたら完成です。
間違いに気が付いた方や質問はコメントにお願いします。
サムネのプロンプト

Negative prompt: EasyNegative
Steps: 20,
Sampler: DPM++ SDE Karras,
CFG scale: 7,
Seed: ----------,
Size: 512x512,
Model hash: 1d1e459f9f,
Model: anything-v4.5,
Denoising strength: 0.7,
ENSD: 31337,
Hires upscale: 2,
Hires upscaler: Latent (bicubic antialiased),
Eta: 0.2