（V1用記事です(新V2出ました)）RVC 愛想良い系少女の声バグ対策　サポートなど

DRH　愛想良い系少女シリーズ、AIモデル制作担当者　つるのちゃん

2023年4月20日 18:58

お知らせ

進化したV2 モデルが登場しました！移行お願いします

理論が進化し、5種の音質全てがとても高品質になり、声の破綻が減り、より実際の若年女性の声に近づきました ! ↓V2導入解説リンク

V2モデルは、V1の完全上位互換版になります。旧V1のサポートは将来的に閉じる予定となっておりますので、V2への移行をお願いします

配布ダウンロード https://chihaya369.booth.pm/items/4701666

V1音声の年齢性別の変換結果　サンプルボイス　ほわっと風味.mp3

声のお化粧ともいえます。

【使用例】コント動画の2人の声に使っていただきました、非リアルタイム変換には、なるほどこういう使い方もあるのかと驚きました。

※追記青いRVC本家バージョンはリアルタイム変換の場合5/28日バージョンを使ってください https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC-beta-v2-0528.7z

リアルタイムボイチェンでの使い方

あたらしいクライアントソフトにアップデートすることで5種風味全てリアルタイム変換できます　以下解説画像です (クリックして拡大)

下の解説画像で紹介されている青いクライアントソフトウェアのダウンロードリンクです
https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC-beta-v2-0528.7z
上のリンクをクリックすると、3.1GBのダウンロードが始まります、　　　　7z解凍方法がわからない場合は　⇒　https://www.google.com/search?client=firefox-b-d&q=7z+%E8%A7%A3%E5%87%8D

以降の説明は下の解説画像をクリックして拡大し見てください
※追記 vcclientでのindex rate調節バーの数値は0にしてください

どうしても古いバージョンのクライアントソフトを使用する方向け⇒【"古いクライアント"でのリアルタイムバグ解決済みほわっと風味、boothで公開しました】

製品による、できる事の違い○×

【RVCモデル_愛想良い系少女の声5種風味パック.zipで出来ること】(2023年4月29日現在のものであり、状況が変化している可能性があります)
○　VCclient 最新バージョンv.1.5.2.6a以降でのリアルタイム変換
○ 最新RVC WebUI https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC-beta-v2-0528.7z 最新バージョンでのgo-realtime-gui.bat実行によるリアルタイム変換
○ RVC WebUI https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC-beta-v2-0528.7z でのgo-web.batブラウザUI(モデル推論タブ)による非リアルタイム変換
X 古いVCclientでのリアルタイム変換

【古いクライアントでのリアルタイムバグ解決verほわっと風味.zipでできる事】
○　古いバージョンのVCclientでのリアルタイム変換
○ RVC WebUI https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC-beta-v2-0528.7z でのgo-web.batクリック実行でのブラウザUI(モデル推論タブ)による非リアルタイム変換

【非リアルタイム変換でも遊べる！】
皆さんからお寄せいただいた案
・ゆっくり霊夢などに声を当ててコント動画
・喋ってツイッターに投稿

RVC本家のWebUI　非リアルタイム使い方

追記！
・RVC本家(lj1995氏のWebUI)の　go-web.batは普通に左クリック実行でお願いします、
・ほわっとタイプが一番性能の高さがわかりやすいモデルです

動作環境 win10
・RVC開発の大元lj1995氏のWebUI
(ダウンロード
https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC-beta-v2-0528.7z )　このzipを解凍後、中にあるgo-web.batを実行してください

さらに愛想良い系少女の声の .pthファイル5種をgo-web.batファイルと同じディレクトリにあるweightsフォルダーに入れてください

・笑顔で話すと綺麗に変換されやすいです
・ピッチ変更は12
・pm、hervestの選択はできればhervestが良いOK
・周波数の選択がボタンがあれば、40kHZ(デフォルト)を選択してください
・他のモデルのために作られた特徴量検索データベースのファイルパス(.index)
特徴量ファイルのパス(npy)と音高ガイドの入力がUI上に残っているとバグが起きる可能性もあります(添付画像)、それらの下にある棒スライダーは0.0にした方が性能が高くなることもあります
・WebUIの変換元音声ファイルを入力する際は、音声ファイルの拡張子間違いにお気を付けください、hanasita.wav hanasita.m4a hanasita.mp3など、音声ファイルにもいろいろございます

今後の開発予定

クライアントソフトアップデートのおかげで、リアルタイム変換5種風味全て対応しました　ありがとうございました。

TwitterでRVC好きの人をチェックするといいでしょう

【技術者向けおまけ】　自分が喋った後に声が出るゆりねっとの私用プログラムです

これをinifer-webの先頭に張り付けてさらにvc_single関数等を書き換えたり色々します　しくみとしてはwavファイルのパスを引数に音声変換するvc_single関数を流用する感じです、音が検出⇒マイク録音⇒音が無い⇒録音停止⇒wavファイルをvc_single関数に投げてボイチェン⇒出来上がったwavを再生という流れです。こうすることで、喋り終わって一旦おいてから、ボイチェン後の声が聴けます、複雑な環境の違いがあるので一般の人に出してエラー頻発したら悪いのであえてこういう形で現在は置いておきます





folder_path = "./lealtimerecord_out"
def monitor_sound_file(folder_path):
    while True:
        file_path = folder_path+"/sound.wav"
        print(file_path)
        if os.path.exists(file_path):
            try:
                # ファイルが存在する場合、再生
                print("Playing sound file...")

                data, fs = sf.read(file_path)
                fs=44100
                # バッファサイズを設定する (例: 1024)
                time.sleep(0.15)
                sd.default.blocksize = 1024
                #sd.play(data, fs)
                #sd.wait()  # 再生が完了するまで待つ
# 再生したいオーディオファイルのパスを指定します。
                audio_file_path = file_path

# コマンドプロンプトで実行するコマンドを指定します。
                command = f'start "" "{audio_file_path}"'

# コマンドを実行します。
                subprocess.run(command, shell=True)
                time.sleep(2.15)
                # ファイル名を現在時刻のタイムスタンプに変更
                #new_file_name = time.strftime("%Y%m%d_%H%M%S%f") + ".wav"
                new_file_name = "sound_" + time.strftime("%Y%m%d_%H%M%S") + ".wav"
                new_file_path = folder_path+"/"+new_file_name
                os.rename(file_path, new_file_path)
                print("File renamed to:", new_file_name)
            except:
                print("ERRRORRR  monitor_sound_file")

        # 1秒待機して再度監視
        time.sleep(0.1)
if __name__ == "__main__":
    # 新しいスレッドで関数を実行
    
    monitor_thread2 = threading.Thread(target=monitor_sound_file, args=(folder_path,))
    monitor_thread2.start()
    





handfree_wav_dir="./lealtimerecord/sound.wav"
class Recorder:
    def __init__(self):
        self.sample_rate = 44100
        self.channels = 1
        self.recorded_data = []

    def record(self):
        with sd.InputStream(samplerate=self.sample_rate, channels=self.channels, dtype='int16', callback=self.callback):
            while self.is_recording:
                sd.sleep(1000)

    def callback(self, indata, frames, time, status):
        self.recorded_data.append(indata.copy())

    def start_recording(self):
        self.is_recording = True
        self.record_thread = Thread(target=self.record)
        self.record_thread.start()

    def stop_recording(self):
        self.is_recording = False
        self.record_thread.join()

        recorded_data_np = np.concatenate(self.recorded_data, axis=0).flatten()
        self.recorded_data = []

        return recorded_data_np





# Recorderクラスを使用している部分をsounddeviceに対応するように変更
def monitor_and_save_audio(threshold, silence_duration):
    recorder = Recorder()
    recording = False
    silence_timer = 0

    while True:
        input_data = sd.rec(int(1024), samplerate=44100, channels=1, dtype='int16')
        sd.wait()  # Wait for the recording to finish
        input_data = np.squeeze(input_data)  # Remove the extra dimension
        input_volume = np.average(np.abs(input_data))

        if recording:
            if input_volume < threshold:
                silence_timer += 1024 / 44100
                if silence_timer > silence_duration:
                    recorded_data_np = recorder.stop_recording()
                    sf.write(handfree_wav_dir, recorded_data_np, 44100, format="wav")
                    vc_single(1,".\\lealtimerecord\\sound.wav",12,"","harvest","","",0.3)

                    
                    recording = False
                    print("Audio saved to ''"+handfree_wav_dir)
            else:
                silence_timer = 0
        else:
            if input_volume > threshold:
                recording = True
                recorder.start_recording()
                silence_timer = 0

        time.sleep(0.01)

if __name__ == "__main__":
    # 新しいスレッドで関数を実行
    monitor_thread = threading.Thread(target=monitor_and_save_audio, args=(400, 0.3))
    monitor_thread.start()
#/ORIGINAL CODE

（V1用記事です(新V2出ました)）RVC 愛想良い系少女の声 バグ対策 サポートなど