TTSのレポジトリ"VITS-fast-fine-tuning"の修正点まとめ(自分用)
TTS(text to speech)ができる有名なモデルの一つにVITSがあります。それをcolab上でfine-tuningして試せるライブラリを有志の方が一般公開されています。
しかしながらそのままだと動かなかったので、修正点をこちらに整理しておきます。
大量のデータをアップロードするときには、事前にzip形式でdrive上にアップロードしておくといい(ローカルからのダウンロードはめちゃくちゃ時間かかる)
ライブラリのバージョンが色々合わないので、Step3で全自