Fish SpeechをGoogle Colabで利用する手順とTTS音声合成のやり方
はじめに
こんにちは!今回は、音声生成のAIモデル「Fish Speech」をGoogle Colabで利用する手順を紹介します。Fish Speechは自然で多言語対応、感情表現もできる音声生成モデルです。
Google Colabを利用することで、無料でGPUリソースを活用し、簡単に音声生成を試せます。以下、具体的なセットアップ手順を説明します。
1. Googleドライブのセットアップ
まず、Google Colabを起動し、Googleドライブにアクセスできるようにマウントします。GPUはT4を選択します。これは、モデルファイルをGoogleドライブから直接読み込むために必要です。
from google.colab import drive
drive.mount('/content/drive')
2. Fish Speechモデルのダウンロードと解凍
Fish Speechのリリースファイル(例:バージョン1.4.2)をこちらからダウンロードし、
Googleドライブにアップロードしておきます。次に、Googleドライブ内のZIPファイルを指定のパスに展開します。
import zipfile
# ダウンロードしたZIPファイルのパスを指定
zip_path = '/content/drive/MyDrive/fish-speech-1.4.2.zip' #パスを指定
# ZIPファイルを展開
extract_path = '/content/'
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
zip_ref.extractall(extract_path)
print("展開が完了しました。")
3. 必要なライブラリのインストール
Fish Speechの動作にはいくつかのライブラリが必要です。以下のコマンドでColab環境にインストールします。
!pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1
!apt install libsox-dev ffmpeg
!pip install gradio
!apt install build-essential cmake libasound-dev portaudio19-dev libportaudio2 libportaudiocpp0
4. Fish Speechのインストール
次に、Fish Speechをインストールします。クラッシュが発生するので、再実行してください。
%cd /content/fish-speech-1.4.2 # バージョン違ったら変更
!pip3 install -e '.[stable]'
5. Hugging Faceからモデルのダウンロード
音声生成モデルをHugging Faceからダウンロードします。以下のコマンドを使用します。
!huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4/
6. ngrokのインストール
Google ColabでWebインターフェースを使用するために、ngrokを設定します。まず、ngrokをインストールし、認証トークンを設定します。
!pip install pyngrok
!ngrok authtoken "ここにトークンを入れる" # 実際の認証トークンに置き換えてください
7.ngrokの設定
次に、ngrokの認証設定を行い、指定のポートでアクセスできるようにします。
from pyngrok import ngrok
YOUR_AUTH_TOKEN = "ここにトークンを入れる" # 実際の認証トークンに置き換えてください
ngrok.set_auth_token(YOUR_AUTH_TOKEN)
# Basic認証の設定
username = "myName" # myNameを任意のユーザー名に変更
password = "myPassword" # myPasswordを任意のパスワードに変更、8文字以上
portnum = 7860 # 使用するポート番号
8. Web UIの起動
最後に、以下のコマンドでFish SpeechのWeb UIを起動し、音声生成を開始します。この辺ややこしいので、補足情報6を見るか、ChatGPTに聞いてください。
ngrok.kill()
public_url = ngrok.connect(portnum, auth=f"{username}:{password}")
print(f"Public URL with auth: {public_url}")
!python -m tools.webui \
--llama-checkpoint-path "checkpoints/fish-speech-1.4" \
--decoder-checkpoint-path "checkpoints/fish-speech-1.4/firefly-gan-vq-fsq-8x1024-21hz-generator.pth" \
--decoder-config-name firefly_gan_vq
詳しい補足情報
ここから先は
この記事が気に入ったらチップで応援してみませんか?