ElevenLabs で Text-to-Speech を試す
「ElevenLabs」で「Text-to-Speech」を試したのでまとめました。
1. ElevenLabs
「ElevenLabs」は、AI技術を活用してテキストから自然で高品質な音声を生成する音声合成ツールです。多言語対応しており、日本語を含む32言語で利用可能です。
主な機能は、次のとおりです。
2. 使用料金
使用料金は次のとおりです。限定的な無料クレジットも提供されており、お試しできます。
3. APIキーの取得
APIキーの取得手順は次のとおりです。
(1) 「ElevelLabs」のサイトを開いてログイン。
(2) 左下の「アカウントアイコン → API Keys」でAPIキーを取得。
4. Colabでの実行
Colabでの実行手順は、次のとおりです。
(1) パッケージのインストール。
# パッケージのインストール
!pip install elevenlabs
(2) 環境変数の準備。
左端の鍵アイコンで「ELEVENLABS_API_KEY」を設定してから、以下のセルを実行してください。
from google.colab import userdata
# 環境変数の準備 (左端の鍵アイコンでELEVENLABS_API_KEYを設定)
ELEVENLABS_API_KEY = userdata.get("ELEVENLABS_API_KEY")
(3) Text-to-Speech の実行。
from elevenlabs import play
from elevenlabs.client import ElevenLabs
# ElevenLabsインスタンスの準備
client = ElevenLabs(
api_key=ELEVENLABS_API_KEY,
)
# 音声の生成
audio = client.generate(
text="Hello! 你好! Hola! नमस्ते! Bonjour! こんにちは! مرحبا! 안녕하세요! Ciao! Cześć! Привіт! வணக்கம்!",
voice="Brian",
model="eleven_multilingual_v2"
)
# 音声の再生
play(audio, notebook=True)
「voice」の種類は、Playgroundの左下の選択UIで確認できます。
「model」の種類は、次の2つです。