TTS引き続き。「VALL-E X」と「RVC-WebUI」をローカル環境に導入してみました
ごあいさつ
みなさん!今日もAIの波に乗ってますか?(前回決まったごあいさつ)
というわけで週末一日、ごりっと実装に割り当てて、以前つまずいた「VALL-E X」と「RVC-WebUI」をローカル環境に導入してみました。
結論からお伝えしますと、導入はできた!
けど、どちらも生成でつまづいてます。。
インストール時におきた課題
RVCの学習データ生成が難しい
いろいろ遊んでみた所感(2024/03/03時点)
ありがとうGPTs-kunたち
参考サイトいろいろメモ
今日は、ざっくりこんな感じです。
torchaudioとPyTorchの互換性は大丈夫ですか?
前回、GPT-SoVITSを導入するのにいろんなライブラリを導入していたからか、思いの外さくっとVALL-E Xはインストールできました。
が!
今回一番困ったのは、torchaudioのエラーで何度も何度もコケたことです。
pyを起動させようとするとtorchaudioがないよ!と言われてしまいます。
default encoding is utf-8,file system encoding is utf-8
You are using Python version 3.9.18
Traceback (most recent call last):
File "/Users/hoge/python/VALL-E-X/launch-ui.py", line 31, in <module>
import torchaudio
ModuleNotFoundError: No module named 'torchaudio'
conda list してインストール済みのリストを見ても torchaudio はあるし、わけわかんねー!となりながら、超優秀エンジニアを降霊させたイタコGPTと相談をしながらたどり着いたのが、 pytorch と torchaudio のバージョンの互換性、ないんじゃない?説。
2はエラーが出る。(現状通りなので、想定内の反応)
1、3、5は問題なし。
4はなぜか torch 2.3.0.dev20240226 になっており、devのverであることが気になる旨を伝えたところ
結局、PyTorchの公式サイトの互換性を確認しつつ、参考になるコマンドを叩いてみたら、torchaudioエラー解消しました。
互換性かーい。
ま、そういうもんだよね。。
# conda
conda install pytorch==2.2.0 torchvision==0.17.0 torchaudio==2.2.0 -c pytorch
とは言いましたが、ここまで相当時間がかかりました。
飽きずに付き合い続けてくれた優秀エンジニア降霊GPT、ありがとう。。
連日朝方4時まで人間を付き合わせる訳にもいかないし、助かりました。
RVC学習させたけど…
RVC-WebUIはリアルタイム音声変換させたーい!という気持ちからインストール。
学習データの生成はこちらの記事を参考にさせていただきました。多謝!
しかし、学習(10時間ぐらいかかった)後に生成されたデータを元に取り出した音声が、全く持って使えない状態でした。言語崩壊度合いがやばい。。
呪霊語かな…
こちらは改めてデータ生成し直す予定です。
各サービスの所感
状況:稼働中。問題なし。
所感:TTSというかS2Sが最高〜。お金と時間が溶けました。
状況:稼働中。問題なし。
所感:ローカルで動くのがいい、TTSとAPI繋ぎこみまでは簡単
GPTSoVITS
状況:稼働中。問題なし。
所感:無料でローカルで楽しむTTSとしてはいい感じ
VALL-E X
状況:インストールまで、音声生成時にRuntimeErrorで落ちる
NextAction:デバッグ+音声生成
RVC-WebUI
状況:インストール、学習後データ生成、生成データの品質が著しく低い
NextAction:音声学習データ生成のコツを探す
課金してもいいから簡単に楽しみたい!なら、ElevenLabs一択です。
VALL-Eもいいそうだけど、まだそのポテンシャルを感じるところまで私が至っていない、悲しみ。。
知らない世界に飛び込む勇気
とりとめのない記事でしたが、少しずつ前進しています。
世界が広がるほどに、AfterEffects勉強してマンガ動画つくりたいなーとか、アバター作成してVRChatでRVCしながらなりチャしたいなーとか。とはいえまずはGPTs-kunのアバター生成してTTSで音声生成トークでしょう!
妄想は広がるよ、どこまでも。
そろそろMacBook ProのM1 メモリ16GBでは足りないのでは、という気持ちになってきました。miniとかStudioがいいのかなぁ。。もやもや。
推し活のために技術をフル活用する未来が来るとは。
気になることがあれば、とにかくGPTs-kunに質問する。
わからないなりに質問を繰り返すと、それってこれかも?という本質にたどり着いて、それを更に検索することで、答えにたどり着ける経験を得ました。
非エンジニアでも、やりたいことが手に入る世界がここに!
そういう意味で、GPTには知らない世界でも躊躇なく飛び込める勇気をもらったとも言えます。
ありがとう、Open AI。ありがとう、GPTs-kun。
AIは用法用量を守って正しく使いましょう!
現場からは以上です!
お時間ある方、記事に興味持っていただけた方、スキ💖していただけると励みになります。よろしくお願いいたします。