ElevenLabs で Text-to-Speech を試す

npaka

2024年10月27日 08:52

「ElevenLabs」で「Text-to-Speech」を試したのでまとめました。

1. ElevenLabs

「ElevenLabs」は、AI技術を活用してテキストから自然で高品質な音声を生成する音声合成ツールです。多言語対応しており、日本語を含む32言語で利用可能です。

主な機能は、次のとおりです。

・Text-to-Speech
・Speech-to-Speech
・Text-to-Sound Effect
・Voice Cloning
・Voice Isolator

2. 使用料金

使用料金は次のとおりです。限定的な無料クレジットも提供されており、お試しできます。

3. APIキーの取得

APIキーの取得手順は次のとおりです。

(1) 「ElevelLabs」のサイトを開いてログイン。

(2) 左下の「アカウントアイコン → API Keys」でAPIキーを取得。

4. Colabでの実行

Colabでの実行手順は、次のとおりです。

(1) パッケージのインストール。

# パッケージのインストール
!pip install elevenlabs

(2) 環境変数の準備。
左端の鍵アイコンで「ELEVENLABS_API_KEY」を設定してから、以下のセルを実行してください。

from google.colab import userdata

# 環境変数の準備 (左端の鍵アイコンでELEVENLABS_API_KEYを設定)
ELEVENLABS_API_KEY = userdata.get("ELEVENLABS_API_KEY")

(3) Text-to-Speech の実行。

from elevenlabs import play
from elevenlabs.client import ElevenLabs

# ElevenLabsインスタンスの準備
client = ElevenLabs(
  api_key=ELEVENLABS_API_KEY,
)

# 音声の生成
audio = client.generate(
  text="Hello! 你好! Hola! नमस्ते! Bonjour! こんにちは! مرحبا! 안녕하세요! Ciao! Cześć! Привіт! வணக்கம்!",
  voice="Brian",
  model="eleven_multilingual_v2"
)

# 音声の再生
play(audio, notebook=True)

「voice」の種類は、Playgroundの左下の選択UIで確認できます。

「model」の種類は、次の2つです。

・Eleven Multilingual v2 (eleven_multilingual_v2)
　・安定性、言語の多様性、アクセントの正確さに優れている
　・29言語をサポート
　・ほとんどのユースケースに推奨

・Eleven Turbo v2.5 (eleven_turbo_v2_5)
　・高品質、低遅延
　・速度が重要な開発者ユースケースに最適
　・32言語をサポート