VOICEVOX関係を利用するためのNote

2024年11月14日 22:03

VOICEVOXのソフトをローカルPCにインストールすると、
テキストto音声で、音声ファイルを取得することができます。
主にローカルAPIとしての使い方と公開時の利用規約などついて
整理してみます。

まずは、とりあえず、VOICEVOXの概要です。
「BOX」ではなく、「VOX」ですからね!!!

ちなみに、VOICEBOXはMETA社のサービスです。
音声用ジェネレーティブAIモデル「Voicebox」

違いますので、ご注意を。

VOICEVOX概要

https://voicevox.hiroshiba.jp/

VOICEVOXは、無料で利用できる中品質なテキスト読み上げおよび歌声合成ソフトウェアです。このソフトウェアは商用・非商用を問わず使用可能で、Windows、Mac、Linuxに対応しています。主な特徴としては、詳細なイントネーション調整が可能であり、喋り声で歌えるハミング機能も搭載されています。

で、このソフトをインストールすると、２つのエンジンが使えます。
そのエンジンの名前も、「VOICEVOX」と「VOICEVOX NEMO」です。
少し、ここがややこしい。
これは、以下の利用規約に関しての違いが関係してくるのです。

「VOICEVOX」と「VOICEVOX NEMO」の利用規約の違いについて

VOICEVOXとVOICEVOX NEMOの利用規約にはいくつかの重要な違いがあります。

VOICEVOXの利用規約: VOICEVOXは商用・非商用を問わず無料で使用できるテキスト読み上げおよび歌声合成ソフトウェアです。利用規約では、各キャラクターの音声に関して異なる条件が設定されており、ユーザーはそれぞれのキャラクターの利用規約を確認する必要があります。
VOICEVOX NEMOの利用規約: 一方、VOICEVOX NEMOも音声合成を提供するエンジンであり、こちらも商用・非商用で使用可能です。

音声の利用規約

VOICEVOXの場合

以下のページに書いてあるように話者によって違います。

一部掲載。このように違いがあります。(引用は上記のURLより)
VOICEVOX 音声ライブラリ利用規約

四国めたん利用規約

音声ライブラリを使用して生成した音声は、「VOICEVOX:四国めたん」とクレジットを記載すれば、商用・非商用問わず利用可能です。
詳細な利用規約はこちらをご確認ください。

ずんだもん利用規約

音声ライブラリを使用して生成した音声は、「VOICEVOX:ずんだもん」とクレジットを記載すれば、商用・非商用問わず利用可能です。
詳細な利用規約はこちらをご確認ください。

春日部つむぎ利用規約

音声ライブラリを使用して生成した音声は、「VOICEVOX:春日部つむぎ」とクレジットを記載すれば、商用・非商用問わず利用可能です。
詳細な利用規約はこちらをご確認ください。

青山龍星利用規約

個人が音声ライブラリを使用して生成した音声は、「VOICEVOX:青山龍星」とクレジットを記載すれば、商用・非商用問わず利用可能です。
企業が関与する利用の場合は、「ななはぴ」に対し事前確認が必要です。
詳細な利用規約はこちらをご確認ください。

Voidoll 利用規約

個人が音声ライブラリを使用して生成した音声は、「VOICEVOX(CV:丹下桜)」とクレジットを記載すれば、商用・非商用問わず利用可能です。
法人による利用の場合は、個別に問い合わせが必要です。
詳細な利用規約はこちらをご確認ください。

以上のように「企業」や「法人」で、少し確認が必要な場合もあります。

VOICEVOX NEMOの場合

こちらは、話者ごとの利用規約はありません。

VOICEVOX Nemo 利用規約

Nemo の音声ライブラリを用いて生成した音声は、「VOICEVOX Nemo」とクレジットを記載すれば、商用・非商用で利用可能です。

利用規約の詳細は以下をご確認ください。
利用規約

APIの利用方法

VOICEVOXは、高品質な音声合成を無料で提供するソフトウェアであり、REST APIを通じて外部アプリケーションからも利用できます。以下に、APIの利用手順を説明します。

1. VOICEVOXのインストールと起動

まず、公式サイトからVOICEVOXをダウンロードし、インストールします。インストール後、VOICEVOXを起動すると、ローカルでHTTPサーバーが立ち上がり、APIが利用可能な状態になります。ブラウザでhttp://localhost:50021/docsにアクセスすると、APIドキュメントを確認できます。
ちなみにNEMOの方ならポートが異なり
http://localhost:50121
となります。
localhostですよ。つまり、VOICEVOXのソフトが起動している必要がありますよ。

2. 音声合成の基本的な流れ

音声合成は以下の手順で行います：

音声合成用クエリの作成：読み上げたいテキストと話者IDを指定して、/audio_queryエンドポイントにPOSTリクエストを送信します。
音声データの生成：取得したクエリデータを使用して、/synthesisエンドポイントにPOSTリクエストを送り、音声データを生成します。

他にも多数のエンドポイントがあり、全部実際には確認できないほどです。
詳しくは上記のdocsを見て下さい。

3. PythonからのAPI利用

Pythonでの利用はrequestsライブラリを使用してAPIにアクセスし、音声データを取得してWAVファイルとして保存します。

4. 話者IDの確認方法

VOICEVOXは複数の話者に対応しており、話者IDを指定することで異なる声質を選択できます。話者IDの一覧は、/speakersエンドポイントにGETリクエストを送信することで取得できます。詳細は公式のAPIドキュメントを参照してください。

5. 注意点

サーバーの起動：VOICEVOXのサーバーがローカルで起動している必要があります。
日本語テキストの制限：VOICEVOXは日本語に特化しているため、他言語のテキストには対応していません。
つまり、「This is a pen.」がうまく読めないというようなことです。
カタカナにしてあげないといけないのです。
音声ファイルのフォーマット：出力される音声ファイルはWAV形式です。必要に応じて他のフォーマットに変換してください。
音源をなにかに使うなら、WAVでくれたほうが、音質がいいので助かります。プログラムでいくらでもmp3化はできるので。

ソフトとしてのVOICEVOX自体の利用規約

利用には、「ご利用の際は VOICEVOX を利用したことがわかるクレジット表記が必要です。」と書かれています。

とりあえず、利用規約については、これを知っておくとよいのではないかなと思います。