Style-Bert-VITS2とAivisSpeechを使って自分の声でAI合成音声を作ってみたんだ

2024年12月13日 05:56

基本的に今回やっていることは公式の動画を見れば誰でもできます

記事としては一般人の感想文的なものとして読んでください
上記動画でやってない部分はAivisSpeechで使うための設定くらいです onnxファイルの作り方など知りたい方は最後のほうを読んでみてください

Style-Bert-VITS2の導入

ここからzipファイルをダウンロードしていつものようにCドライブ直下に展開
グラボがあるのでInstall-Style-Bert-VITS2.batをダブルクリック
なんか多少のダウンロードはされるけど中途半端に終わる…
というのはPowerShellのパスが通ってなかったからでした
自分みたいなもののためにメモっておきます

コントロールパネル→システムとセキュリティ→システム→システムの詳細設定→環境変数→Pathを選択→編集→新規→C:\Windows\System32\WindowsPowerShell\v1.0 と入力

PowerShellの場所やバージョンはだいたい同じだと思いますが違ったら書き換えてください

ITAコーパスで音声素材の録音

何はなくとも素材の準備が必要だということでITAコーパスを使いました

ここの朗読者用のファイルを読み上げ 3000円のマイクとWindowsプリインのサウンドレコーダーを使いwav形式で録音(Live2D作ってた頃に動作確認に使っていたマイクが今更役に立つとは…)
頑張って読んで40分くらいかかりました
途中ねこが自分に話しかけられたのかと思ったのかお返事をしてくれるトラブルがありつつそのままのファイルをぶち込みます

完成したwavファイルをsb2/Style-Bert-VITS2/inputsフォルダに入れます
次にDataset.batをダブルクリックして開きます
モデル名を入れたらとりあえずデフォルト値で " スライスを実行" をクリック
終わったら "音声の文字起こし" をクリック
ちょっと時間がかかるので待ちます
スライスされた音声ファイルはsbv2/Style-Bert-VITS2/Data/モデル名/rawの中にあります
文字起こしファイルはモデル名フォルダに esd.list という名前で入ってます

学習させる

train.batをダブルクリックして開きます
"自動前処理を実行" をクリック
そしてなにもわからぬままデフォルト設定で(VRAMが6GBなのでバッチサイズだけ1に変えました) "学習を開始する" をクリック
待ちます

～約8時間経過～

できました

いい感じのモデルファイルを選ぶ

app.batかeditor.batを開き作ったモデルの名前を選びます
このときデフォルト設定で学習した場合はステップごとに保存されたモデルファイルがバーッと出ると思います
ここからいいものを選びます
自分の場合はどれも同じようなものだけど敢えて言うなら15000くらいかなあ…？という感じでした…

スタイル作成

次はスタイル作成です
まずapp.batを開き"スタイル作成"タブを選びます
そのタブの中の"方法0:サブフォルダごとにスタイルベクトルを作成"の下の方で
"音声が入っているフォルダ"を入力します自分はC:\sbv2\Style-Bert-VITS2\Data\inamineを入力欄に入れました
直下の"スタイルベクトルを作成"ボタンを押します
次に"その他の方法"タブに移りモデル名を入れて"スタイルベクトルを読み込む"
あとは"スタイル分けを自動で行う"から作るスタイルの数やアルゴリズムを決めてスタイル分けを実行してできたスタイルに名前をつけます
自分は"もそもそ"とか"ぼそぼそ"とかつけましたどれもほとんど変わらぬ陰キャボイスだったので… 正直スタイル分けいらなかったです…
最後に"スタイルベクトルを保存"ボタンを押せば完了

次はAivisSpeechで使えるようにしていきます

AivisSpeechで使う準備 onnxファイルに変換する

sb2/Style-Bert-Vits2フォルダの中でgit bashを開き以下のコマンドを実行します

git checkout dev
pip install -r requirements.txt

次に Style-Bert-Vits2フォルダでコマンドプロンプトを開いて以下のコマンドを入れます

python convert_onnx.py --model C:\モデルのパス.safetensors

例としてはこんなかんじ↓

python convert_onnx.py --model C:\sbv2\Style-Bert-VITS2\model_assets\inamine\inamine_e79_s15000.safetensors

これでモデルフォルダの中にonnxファイルが出来るはず
※12月24日onnxファイルの作り方を修正しました

ちなみにonnxファイルを作った後は

git checkout master

でブランチを戻してください devのままだと次に別の合成音声をつくるときにエラーが出ました

AivisSpeechで使う準備 AIVMXファイルを生成

Aivis project公式ページからAIVM Generatorをクリック "各ファイルから新規生成"に4種類のファイルを突っ込んで生成ボタンをクリック AIVMファイルとAIVMXファイルがダウンロードされます
あとはAivisSpeechを開いて設定→音声合成モデルの管理→インストール/更新からモデルファイルを指定して話者リストに登録します

これで設定完了しました

できた

吾輩は猫である #AI合成音声 pic.twitter.com/51PXcOjNGD
— たり (@tr_anslucent) December 12, 2024

おわり

追記
作ったモデルを無料配布することにしましたよかったらどうぞ

動画版作りました

いいなと思ったら応援しよう！

この記事が参加している募集

#つくってみた

24,204件

#AIとやってみた

45,893件