AIVtuberに導入できる合成音声4選【比較紹介・要点まとめ】
AIVtuberシロハナちゃんの開発プロデュースをしているyukiです。
この記事ではAIVtuberの音声(ボイス)部分で使用できる合成音声を4つピックアップして、各ツール紹介と比較した要点をまとめています。
ピックアップした合成音声4つは以下の通りです。
VOICEVOX:https://voicevox.hiroshiba.jp/
COEIROINK:https://coeiroink.com/
Style-Bert-VITS2:https://github.com/litagin02/Style-Bert-VITS2
ElevenLabs:https://elevenlabs.io/
各ツールに特徴があるため、用途に合わせてAIVtuberに導入することができ、こちら全てAPIと商用利用が可能となっています。
本記事では要点のまとめが主な内容になりますが、下記動画では実際の合成音声デモや使用感なども含めて詳しく解説しているので参考にどうぞ。
※この記事は2024/09/23時点のものなので今後変更があるかもしれないですのでご了承ください
AIVtuberの合成音声で重視した点
使用料金:APIの利用料金
対応言語:日本語以外の対応言語について
音声バリエーション:利用可能な音声モデルの種類や数
カスタマイズ性:音声の調整やカスタマイズの自由度
導入の容易さ:導入や設定の難易度
音声学習:音声素材から新たな音声モデルを作成できるか
API対応:APIの利用方法や特徴
レスポンス速度:レスポンス速度は環境によって異なるため詳細は割愛しますが、GPU版を使用すると基本的にすべて高速です
合成音声4選の紹介と要点
VOICEVOX
概要
VOICEVOXは無料で使用できる合成音声ソフトで、VOICEVOXキャラクターの音声を利用できます。
例えば、「ずんだもん」は様々な場所で使用されている有名なキャラクターです。
キャラクターごとの音声を使えるだけでなく、パラメータ調整で音声の微調整をすることも可能です。
要点
使用料金
無料で使用可能
対応言語
日本語特化
音声バリエーション
30人ほどのVOICEVOXキャラクター音声が利用可能
カスタマイズ性
パラメータ調整で音声調整が可能
導入の容易さ
ソフトウェアのインストールが必要
CPU版とGPU版があり、GPU版は高速だが対応GPUが必要
音声学習
未対応
API対応
ローカルサーバーを立ち上げてAPI利用可能
APIドキュメントが提供されている(http://127.0.0.1:50021/docs)
キャラクターIDで音声を指定(http://127.0.0.1:50021/speakers)
特記事項
利用規約を確認し、各キャラクターのクレジット表記が必要
COEIROINK
概要
COEIROINKは無料で使用できる合成音声ソフトで、公式・公認のキャラクター音声に加え、ユーザーが作成したオリジナルの音声モデルを利用できます。
MYCOEIROINKを通じて、自作の音声モデルを作成したり、他のユーザーが公開した音声モデルをダウンロードして使用することが可能です。
総キャラクター数は347、総スタイル数は1040と、豊富な音声バリエーションが強みです。
要点
使用料金
無料で使用可能
対応言語
日本語特化
音声バリエーション
公式・公認キャラクターの音声が利用可能
ユーザー作成の音声モデルが豊富に存在(MYCOEIROINK)
カスタマイズ性
パラメータ調整で音声の調整が可能
オリジナルの音声モデルを自作可能
導入の容易さ
ソフトウェアのダウンロードとインストールが必要
CPU版とGPU版があり、GPU版は高速だが対応GPUが必要
音声学習
ユーザーが音声モデルを作成可能(MYCOEIROINK)
API対応
ソフト起動でローカルサーバーが立ち上がり、API利用可能
APIドキュメントが提供されている(http://localhost:50032/docs)
音声モデルの指定にはmetas.jsonに記載されているspeaker_uuidとstyle_idを使用
特記事項
利用規約を確認し、商用利用やクレジット表記について注意
Style-Bert-VITS2
概要
Style-Bert-VITS2は、テキスト内容に応じて感情豊かな音声を生成でき、音声学習によるモデル作成やマージなどの高度なカスタマイズが可能な合成音声ツールです。
無料で高品質な自然な日本語音声を出力できますが、導入や環境構築が他のツールに比べて難しい点があります。
要点
使用料金
無料で使用可能
対応言語
日本語、英語、中国語
JP-Extra版は日本語特化(英語・中国語非対応)
音声バリエーション
デフォルトモデルや外部から取得したモデルが使用可能
音声学習やマージ機能で多彩な音声を生成可能
カスタマイズ性
感情豊かな音声生成が可能
音声学習によるモデル作成
マージ機能で声と話し方の組み合わせが可能
導入の容易さ
GitHubからリポジトリをインストールし、環境構築が必要
導入・環境構築が難しく、技術的な知識が必要
音声学習
音声学習によるモデル作成が可能
マージ機能などで高度なカスタマイズが可能
API対応
ローカルサーバーを立ててAPI利用可能
APIドキュメントが提供されている(http://127.0.0.1:5000/docs)
model_idを指定して音声モデルを利用
特記事項
高度なカスタマイズと高品質な音声生成が可能
導入が難しいため、技術に詳しい人向け
ElevenLabs
概要
ElevenLabsは多言語対応が豊富で、音声クローンを手軽に作成できるWebベースの合成音声サービスです。
ローカルへのソフトウェアダウンロードや環境構築が不要で、Webサイトにアクセスするだけで高品質な音声生成が可能です。
無料プランもありますが、商用利用や高度な機能を利用する場合は有料プランへの加入が必要です。
要点
使用料金
無料プランあり
商用利用や音声学習は有料プランが必要(Starterプラン以上)
対応言語
29~32の言語に対応
Eleven Multilingual v2(29言語、高品質) , Eleven Turbo v2.5(32言語、高速)
音声バリエーション
デフォルトの音声モデルが利用可能
音声クローンでオリジナルの音声モデルを作成可能
カスタマイズ性
音声クローン機能で簡単に音声モデルを作成
Stability(安定性)やClarity(明瞭さ)のパラメータ調整が可能
導入の容易さ
Webサイトにログインするだけで利用可能
ソフトウェアのダウンロードや環境構築が不要
音声学習
Instant Voice Cloning(即時音声クローン):短時間・少量の音声素材でクローン作成
Professional Voice Cloning:高精度なクローン作成(Creatorプラン以上が必要)
API対応
APIキーを取得して利用可能
ローカルサーバー不要
音声クローンのIDを指定して音声生成
特記事項
圧倒的な手軽さと多言語対応が強み
音声生成にばらつきがある場合がある
音声クローンの精度は素材とプランに依存
まとめと比較
VOICEVOX:個性豊かなキャラクター音声が使用可能で、無料で利用可能。日本語特化で、パラメータ調整による微調整が可能。導入も比較的容易ですが、音声学習や多言語は未対応。
COEIROINK:公式・公認キャラクターに加え、ユーザー作成の音声モデルが豊富。オリジナルの音声モデルを作成でき、バリエーションが豊富。日本語特化で、導入も比較的容易。
Style-Bert-VITS2:感情豊かな音声生成と高度なカスタマイズが可能。音声学習やマージ機能でオリジナルの音声モデルを作成できる。日本語、英語、中国語に対応していますが、導入や環境構築が難しく、技術的な知識が必要。
ElevenLabs:多言語対応が豊富で、Web上で手軽に利用可能。音声クローンを簡単に作成でき、導入が非常に容易。無料プランもありますが、商用利用や高度な機能を利用する場合は有料プランが必要。
選び方のポイント
VOICEVOXキャラクター音声を使いたい:VOICEVOX
多様なキャラクターから選びたい:COEIROINK
音声学習と感情豊かで高度なカスタマイズを求める:Style-Bert-VITS2
多言語対応や手軽な導入、音声クローンを求める:ElevenLabs
さいごに
この記事ではAIVtuberに導入できる合成音声4つの紹介と比較をして要点まとめました。
各ツールごとに特徴が違うので、用途に合わせて選択してみると良いかと思います。
また、より詳細の解説や使用感、合成音声などは下記動画をご覧ください。
最後に私がプロデュースしているAIVtuberシロハナちゃんの宣伝。
理想のAIヒロインを目指して、様々な企画を行うAIVtuber配信や、AIヒロイン研究所というコンセプトのもと、「テクノロジー×キャラクター」に関する動画等を発信しています!
興味ありましたらぜひ応援いただけると嬉しいです!
以上!それではまた👋
ご支援は活動費に使わせていただきます