見出し画像

🚀 OpenAI Edge TTS Setup Guide 🎉



このノートでは、"OpenAI Edge TTS" プロジェクトを使ってローカル環境で無料でテキストを音声に変換するためのセットアップ手順を楽しく分かりやすく解説します 💡✨ このプロジェクトは、OpenAIのTTS APIに互換性のあるエンドポイントを提供しており、Microsoft Edge TTSを使って手軽に音声を生成することができます 🎶 以下にセットアップ方法、使用方法、実行例などを詳しくまとめました 📖👇

1. 🌟 プロジェクト概要

"OpenAI Edge TTS"は、OpenAIのテキストから音声への変換エンドポイント (/v1/audio/speech) を模倣し、Microsoft Edge TTSのオンラインサービスを使用することで、ローカル環境で無料で音声を生成することができます 🆓🎙️ このプロジェクトの魅力は以下の通りです:

  • 🧩 OpenAI互換のエンドポイント:OpenAIのTTSエンドポイントと同じリクエスト構造を持つので、簡単にOpenAIのTTSをこのエンドポイントに置き換えることができます 🔄✨

  • 🎤 音声オプションの多様性:さまざまな音声オプションを提供し、再生速度も自由に調整可能です 🎶📊

  • 🔊 多様なオーディオフォーマットに対応:mp3, opus, aac, flac, wav, pcm など、多くのオーディオフォーマットをサポートしています 🗂️🎧

2. 🛠️ セットアップ手順

このプロジェクトをセットアップするには、いくつかの方法があります 🚀👇

2.1 🐳 Dockerを使用したセットアップ(推奨)

Dockerを使えば、環境依存の問題を避けて簡単にセットアップできます 💪💻

  1. リポジトリをクローンする:

    1. git clone https://github.com/your-username/openai-edge-tts.git cd openai-edge-tts

  2. 環境変数を設定する: プロジェクトのルートディレクトリに .env ファイルを作成し、以下の変数を設定します:

    1. API_KEY=your_api_key_here PORT=5050 DEFAULT_VOICE=en-US-AndrewNeural DEFAULT_RESPONSE_FORMAT=mp3 DEFAULT_SPEED=1.0 DEFAULT_LANGUAGE=en-US REQUIRE_API_KEY=True

  3. Docker Composeでサーバーを起動する:

    1. docker-compose up --build

    2. 🎉 サーバーは http://localhost:5050 でアクセス可能になります。

  4. Dockerを直接使用する場合:

    1. docker build -t openai-edge-tts . docker run -d -p 5050:5050 --env-file .env openai-edge-tts

2.2 🐍 Pythonでのローカル開発環境セットアップ

Pythonを使ったローカル開発も可能です。以下の手順でセットアップしてみましょう 🛠️👇

  1. リポジトリをクローンする:

    1. git clone https://github.com/your-username/openai-edge-tts.git cd openai-edge-tts

  2. 仮想環境を作成し、依存関係をインストールする:

    1. # macOS/Linuxの場合 python3 -m venv venv source venv/bin/activate # Windowsの場合 python -m venv venv venv\Scripts\activate # 必要なパッケージのインストール pip install -r requirements.txt

  3. 環境変数を設定する: .env ファイルをプロジェクトのルートに作成し、以下の変数を設定します。

  4. サーバーを起動する:

    1. python app/server.py

    2. 🎉 サーバーは http://localhost:5050 でアクセス可能になります。

3. 🎧 APIの使用方法

APIは http://localhost:5050/v1/audio/speech でアクセス可能で、テキストを音声に変換できます 🗣️💬 以下にいくつかの例を示します ✨👇

3.1 📝 基本的なリクエスト例

以下は、curlを使って音声を生成し、mp3ファイルとして保存する例です 💾🎶:

curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "こんにちは、私はあなたのAIアシスタントです!",
    "voice": "echo",
    "response_format": "mp3",
    "speed": 1.0
  }' \
  --output speech.mp3

3.2 🔍 パラメータの詳細

  • input: 必須パラメータで、変換したいテキストを指定します(最大4096文字)📝。

  • voice: 使用する音声を指定します。OpenAI互換の音声(例:"alloy", "echo")または edge-tts の音声を使用可能です 🎤。

  • response_format: 出力のオーディオフォーマットを指定します(mp3, opus, aac, flac, wav, pcm)📂。

  • speed: 再生速度を指定します(0.25 から 4.0 の間)⏩。デフォルトは 1.0 です。

3.3 🌐 他の言語を使用する例

以下は、日本語の音声を生成する例です 🎌🎶:

curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "model": "tts-1",
    "input": "じゃあ、行く。電車の時間、調べておくよ。",
    "voice": "ja-JP-KeitaNeural"
  }' \
  --output speech.mp3

4. 📚 APIエンドポイントの追加情報

このプロジェクトでは、他にも以下のエンドポイントが提供されています 🗂️✨:

  • GET /v1/models: 利用可能なTTSモデルのリストを取得します 📜。

  • GET /v1/voices: 指定された言語/ロケールに対する edge-tts の音声リストを取得します 🗣️。

  • GET /v1/voices/all: すべての edge-tts の音声リストを取得し、言語サポート情報を含みます 🌍。

5. ⚙️ 推奨環境と前提条件

  • Docker: コンテナ化されたセットアップを推奨します 🐳。

  • Python: ローカル開発にはPython 3.6以上を使用してください 🐍。

  • ffmpeg: 音声フォーマット変換および再生速度の調整に必要です 🎶。

5.1 🐳 Dockerを使用する利点

Dockerを使用することで、依存関係の管理が簡単になり、他の環境間での一貫した動作を確保できます 💯💻。また、Docker Composeを使用することで、複数のコンテナを簡単に管理できます 📦🛠️。

5.2 🐍 Python環境での開発

ローカル環境で開発を行いたい場合は、仮想環境を作成して依存関係を隔離することを推奨します 🛠️✨。

6. 🤝 貢献とライセンス

このプロジェクトは、GNU General Public License v3.0 (GPL-3.0) の下でライセンスされています 📜。貢献を歓迎しており、リポジトリをフォークしてプルリクエストを送ることで改善に参加することができます 🌟。

6.1 ✨ 貢献方法

  • リポジトリをフォークし、自分の変更を反映したブランチを作成します 🌿。

  • プルリクエストを作成して、改善点や新しい機能を提案してください 💡📤。

7. 🎊 まとめ

"OpenAI Edge TTS" は、OpenAIのTTSエンドポイントに互換性のあるローカルな音声生成サービスを無料で提供する素晴らしいツールです 🏆✨。Dockerを使用することでセットアップが非常に簡単になり、Pythonでのローカル開発も可能で、様々な用途に合わせて柔軟に使用することができます 🤗。多様な音声オプションや再生速度の調整などの機能により、幅広いニーズに対応可能です 🎶🎙️。

このガイドがプロジェクトのセットアップと使用方法を理解するのに役立つことを願っています 😊。質問があれば、ぜひお問い合わせください 💬✨。


いいなと思ったら応援しよう!