見出し画像

Fish SpeechをGoogle Colabで利用する手順とTTS音声合成のやり方

はじめに

こんにちは!今回は、音声生成のAIモデル「Fish Speech」をGoogle Colabで利用する手順を紹介します。Fish Speechは自然で多言語対応、感情表現もできる音声生成モデルです。

Google Colabを利用することで、無料でGPUリソースを活用し、簡単に音声生成を試せます。以下、具体的なセットアップ手順を説明します。


1. Googleドライブのセットアップ

まず、Google Colabを起動し、Googleドライブにアクセスできるようにマウントします。GPUはT4を選択します。これは、モデルファイルをGoogleドライブから直接読み込むために必要です。

from google.colab import drive
drive.mount('/content/drive')

2. Fish Speechモデルのダウンロードと解凍

Fish Speechのリリースファイル(例:バージョン1.4.2)をこちらからダウンロードし、

Googleドライブにアップロードしておきます。次に、Googleドライブ内のZIPファイルを指定のパスに展開します。

import zipfile

# ダウンロードしたZIPファイルのパスを指定
zip_path = '/content/drive/MyDrive/fish-speech-1.4.2.zip' #パスを指定


# ZIPファイルを展開
extract_path = '/content/'
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
  zip_ref.extractall(extract_path)

print("展開が完了しました。")

3. 必要なライブラリのインストール

Fish Speechの動作にはいくつかのライブラリが必要です。以下のコマンドでColab環境にインストールします。

!pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1
!apt install libsox-dev ffmpeg
!pip install gradio
!apt install build-essential cmake libasound-dev portaudio19-dev libportaudio2 libportaudiocpp0

4. Fish Speechのインストール

次に、Fish Speechをインストールします。クラッシュが発生するので、再実行してください。

%cd /content/fish-speech-1.4.2 # バージョン違ったら変更
!pip3 install -e '.[stable]'

5. Hugging Faceからモデルのダウンロード

音声生成モデルをHugging Faceからダウンロードします。以下のコマンドを使用します。

!huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4/

6. ngrokのインストール

Google ColabでWebインターフェースを使用するために、ngrokを設定します。まず、ngrokをインストールし、認証トークンを設定します。

!pip install pyngrok
!ngrok authtoken "ここにトークンを入れる" # 実際の認証トークンに置き換えてください

7.ngrokの設定

次に、ngrokの認証設定を行い、指定のポートでアクセスできるようにします。

from pyngrok import ngrok

YOUR_AUTH_TOKEN = "ここにトークンを入れる" # 実際の認証トークンに置き換えてください
ngrok.set_auth_token(YOUR_AUTH_TOKEN)

# Basic認証の設定
username = "myName" # myNameを任意のユーザー名に変更
password = "myPassword" # myPasswordを任意のパスワードに変更、8文字以上
portnum = 7860 # 使用するポート番号

8. Web UIの起動

最後に、以下のコマンドでFish SpeechのWeb UIを起動し、音声生成を開始します。この辺ややこしいので、補足情報6を見るか、ChatGPTに聞いてください。

ngrok.kill()
public_url = ngrok.connect(portnum, auth=f"{username}:{password}")
print(f"Public URL with auth: {public_url}")

!python -m tools.webui \
  --llama-checkpoint-path "checkpoints/fish-speech-1.4" \
  --decoder-checkpoint-path "checkpoints/fish-speech-1.4/firefly-gan-vq-fsq-8x1024-21hz-generator.pth" \
  --decoder-config-name firefly_gan_vq
起動した

※この続きや日々更新される記事の全文は、個別購入以外にnoteにて月額550円の『メンバーシップ』への加入でも読むことができます。

詳しい補足情報

ここから先は

1,259字 / 7画像
この記事のみ ¥ 300

この記事が気に入ったらチップで応援してみませんか?