見出し画像

Style-Bert-VITS2とAivisSpeechを使って自分の声でAI合成音声を作ってみたんだ

基本的に今回やっていることは公式の動画を見れば誰でもできます

記事としては一般人の感想文的なものとして読んでください
上記動画でやってない部分はAivisSpeechで使うための設定くらいです onnxファイルの作り方など知りたい方は最後のほうを読んでみてください

Style-Bert-VITS2の導入

ここからzipファイルをダウンロードして いつものようにCドライブ直下に展開
グラボがあるのでInstall-Style-Bert-VITS2.batをダブルクリック
なんか多少のダウンロードはされるけど中途半端に終わる…
というのはPowerShellのパスが通ってなかったからでした
自分みたいなもののためにメモっておきます

コントロールパネル→システムとセキュリティ→システム→システムの詳細設定→環境変数→Pathを選択→編集→新規→C:\Windows\System32\WindowsPowerShell\v1.0 と入力

PowerShellの場所やバージョンはだいたい同じだと思いますが違ったら書き換えてください

ITAコーパスで音声素材の録音

何はなくとも素材の準備が必要だということでITAコーパスを使いました

ここの朗読者用のファイルを読み上げ 3000円のマイクとWindowsプリインのサウンドレコーダーを使いwav形式で録音(Live2D作ってた頃に動作確認に使っていたマイクが今更役に立つとは…)
頑張って読んで40分くらいかかりました
途中ねこが自分に話しかけられたのかと思ったのかお返事をしてくれるトラブルがありつつ そのままのファイルをぶち込みます

完成したwavファイルをsb2/Style-Bert-VITS2/inputsフォルダに入れます
次にDataset.batをダブルクリックして開きます
モデル名を入れたら とりあえずデフォルト値で " スライスを実行" をクリック
終わったら "音声の文字起こし" をクリック
ちょっと時間がかかるので待ちます
スライスされた音声ファイルはsbv2/Style-Bert-VITS2/Data/モデル名/rawの中にあります
文字起こしファイルはモデル名フォルダに esd.list という名前で入ってます

学習させる

train.batをダブルクリックして開きます
"自動前処理を実行" をクリック
そしてなにもわからぬままデフォルト設定で(VRAMが6GBなのでバッチサイズだけ1に変えました)  "学習を開始する"  をクリック
待ちます

~約8時間経過~

できました

いい感じのモデルファイルを選ぶ

app.batかeditor.batを開き 作ったモデルの名前を選びます
このとき デフォルト設定で学習した場合はステップごとに保存されたモデルファイルがバーッと出ると思います
ここからいいものを選びます
自分の場合はどれも同じようなものだけど敢えて言うなら15000くらいかなあ…?という感じでした…

スタイル作成

次はスタイル作成です
まずapp.batを開き"スタイル作成"タブを選びます
そのタブの中の"方法0:サブフォルダごとにスタイルベクトルを作成"の下の方で
"音声が入っているフォルダ"を入力します 自分はC:\sbv2\Style-Bert-VITS2\Data\inamineを入力欄に入れました
直下の"スタイルベクトルを作成"ボタンを押します
次に"その他の方法"タブに移り モデル名を入れて"スタイルベクトルを読み込む"
あとは"スタイル分けを自動で行う"から作るスタイルの数やアルゴリズムを決めてスタイル分けを実行して できたスタイルに名前をつけます
自分は"もそもそ"とか"ぼそぼそ"とかつけました どれもほとんど変わらぬ陰キャボイスだったので… 正直スタイル分けいらなかったです…
最後に"スタイルベクトルを保存"ボタンを押せば完了

次はAivisSpeechで使えるようにしていきます

AivisSpeechで使う準備 onnxファイルに変換する

sb2/Style-Bert-Vits2フォルダの中でgit bashを開き 以下のコマンドを実行します

git checkout dev
pip install -r requirements.txt

次に Style-Bert-Vits2フォルダでコマンドプロンプトを開いて以下のコマンドを入れます

python convert_onnx.py --model C:\モデルのパス.safetensors

例としてはこんなかんじ↓

python convert_onnx.py --model C:\sbv2\Style-Bert-VITS2\model_assets\inamine\inamine_e79_s15000.safetensors

これでモデルフォルダの中にonnxファイルが出来るはず
※12月24日onnxファイルの作り方を修正しました

ちなみにonnxファイルを作った後は

git checkout master

でブランチを戻してください devのままだと次に別の合成音声をつくるときにエラーが出ました

AivisSpeechで使う準備 AIVMXファイルを生成

Aivis project公式ページからAIVM Generatorをクリック "各ファイルから新規生成"に4種類のファイルを突っ込んで 生成ボタンをクリック AIVMファイルとAIVMXファイルがダウンロードされます
あとはAivisSpeechを開いて 設定→音声合成モデルの管理→インストール/更新 からモデルファイルを指定して話者リストに登録します

これで設定完了しました

できた


おわり


追記
作ったモデルを無料配布することにしました よかったらどうぞ

動画版作りました


いいなと思ったら応援しよう!