遅延約50msのAIボイチェンBeatrice用にうちの子の音声生成AIモデルを作り直した話

夜御牧れる🌘🌪️【バ美肉】呪われたラジオ音楽を奏でる傍観者/ボイチェンVTuber

2024年8月14日 21:57

キャラクターイラスト　Show-G様
キャラクターデザイン　井ノ内様
背景素材　うさねこメモリー様

　公称遅延0.05秒とかいう超低遅延ボイスチェンジャーBeatrice用に、うちの子（聖書にも書かれている、自分のことをうちの子と書いても良いと❣）の音声生成モデルを作り直したのでメモ。

RVCとの変換結果の聴き比べ

　結果は下記の通りです。前半がBeatrice Ver. 2.0.0-beta.0の変換結果、後半がRVC 2.2.231006の変換結果。

　ただし上記動画において、Beatrice出力はリアルタイム変換ですが、RVC出力はリアルタイム変換ではありません。RVC側は（VC Clientではなく）本家のピッチ検出harvestで変換したものです。RVCについてはリアルタイム変換すると数百ミリ秒の遅延が発生するうえ、歌は特にロングトーンが破綻しがちになるので、上の動画よりは変換の質は悪くなります。

　さすがにRVCの非リアルタイム変換は活舌が良いです。しかし、Beatriceのリアルタイム変換で長音伸ばしても変換乱れない点は爆アドです。遅延50ミリ秒だと歌はボイチェン声聞きながらだと若干引っ掛かりますけど、普通に発話する分にはほぼ気にならないです。

　そこまで重い環境じゃないですが、Live2Dその他の配信構成でBeatriceくんを使っても変換乱れたり遅延伸びたりもなさそうでした。(ただし、うちの子はRyzen 9 7900X+GeForce RTX 4060 Ti 16GB+メモリ64GBなのですが……)

（どのボイチェンにしろ話声変換でピッチ+12だと高めに話さないとドブボになりますね。。ヤミマキさんの場合モデルの半分が中のおじさんの声由来っていうせいでもあるけど）

Beatrice用音声生成モデルの学習

　音声提供者からAI学習許可が出ていると見てよさそうな学習データについては下記記事をどうぞ。しかし、1年以上前にまとめたものなので今はBOOTHなどで探せばもっといろいろあるかもしれません。

　RVCのモデルマージ機能を使うとLittle Alter Boy等でお化粧した自分の声混ぜてうちの子の声作ったりもできます（RVC学習済みモデルにはマージ禁止や改変禁止のものも多いので注意）。

　Beatrice用モデルの学習については、VC Clientの人が作ってるトレーニングツールをGoogle Colabで動かすのが手っ取り早いです。
　ただし、2024年7月27日にコミットされたバージョンでは9秒以上の音声データを突っ込むとエラーになるそうなので注意。

　お高いGPU（VRAM 8GB以上？9GB以上？でおそらくGeForce限定）を持っていればローカルでも学習できます。ヤミマキさんはローカルで学習させましたが、RTX 4060 Ti 16GBでITAコーパス424文（ただし9秒以上の音声除外）を20000ステップ回すのに約5時間かかりました。

遅延約50msのAIボイチェンBeatrice用にうちの子の音声生成AIモデルを作り直した話

RVCとの変換結果の聴き比べ

Beatrice用音声生成モデルの学習

オーディオルーティング関連記事