いろいろなボイスクローンのサービスを触ってみた
自分の声で音声を作りたく、少し前にサービスやツールを調べたり検証したりしました。その覚え書きです。
対象はテキストから音声への変換、いわゆるテキスト読み上げ(Text to Speech)です。特に、自分の声をもとにしたモデル作成なので、ボイスクローンとも言われます。
ボイスチェンジャーなどの音声から音声への変換ではありません。
▍汎用クラウド事業者
MicrosoftとGoogleがそれぞれクラウドサービスとして提供しています。
■Microsoft
AzureのSpeech Serviceにカスタムニューラル音声という機能があり、専用のポータルサイトで学習やデプロイを行えます。
本格的に利用するにはデプロイが必要で、それには申請が求められます。Microsoftのマネージドカスタマー化マネージドパートナーでないと申請が通らないかもしれません。うちは「Unmanaged」という理由で落ちました。
なお、テスト利用のLite版であれば申請不要で試せます。ただ、学習費用はかかりますし、デプロイしてボイスタレントステートメントを送信しないと90日後に期限切れになります。結局は先に申請を通しておかないと、モデルを作ったはいいけどデプロイできずに使えなくなってしまいます。
ちなみに、うちで試した時の学習費用は約7,900円でした。それも含めて価格の詳細は公式をご参照ください。
Google CloudのText-to-Speechにカスタム音声の機能があります。
ただ、詳細はセールスチームに問い合わせることになります。うちも問い合わせましたが、まだポータルやAPIでさくっと使える感じではなかったので、見送りました。
ちなみに、料金はGoogle Cloudのマーケットプレイスでそれらしいものを確認できます。詳細は分かりませんが、学習とは別にモデルのホスティング時間でも料金がかかりそうに見えます。
▍音声に特化したサービス
■日本のサービス
CoeFont。日本での音声サービスでは有名だと思います。日本でボイスクローンをサービスとして提供しているものを他に見つけられませんでした。
うちは最終的にCoeFontの利用に落ち着きました。
■海外のサービス
ほとんどが日本語非対応です。将来的には対応する可能性があるので、せっかくなので記載しておきます。
ElevenLabs。最近音声の界隈でよく目にします。
現状では日本語非対応ということですが、今後に期待です。
Coqui。GitHubでも目にします。
ボイスクローン作成時のスクリプトが英語だったので、英語のみの対応だと判断しました。
Resemble。
Proなら日本語でも対応しているように見えます。要問い合わせだったので、未検証です。
PlayHT。
ボイスクローンを含む画面では英語のみしか使えないようなので、ボイスクローンは日本語非対応だと判断しました。
Murf。
英語のみ明記されていたので、未検証です。
▍ボイスクローンのツール
サービス利用せずにボイスクローンを実現するツールです。なお、調べただけで未検証です。
MYCOEIROINK。テキスト読み上げツールであるCOEIROINKの関連ツールです。クレジット表記が必須です。
TALQu。テキスト読み上げに加え、学習もできるようです。
ほか、自分でもコードを割と書くようなものでしたら、ESPnetやBARKなども有名です。
▍おわりに
こうして見ると、日本語のボイスクローンのサービスはまだ選択肢が限られていますね。ただ、今後はクラウド事業者を含む海外サービスも台頭してくるかもしれません。
いずれにしても、コードを書かずに日本語でボイスクローンをやりたい人の参考になれば嬉しく思います。
私たちのデジタル技術活用のメモが次のマガジンにあります。よろしければ覗いてみてください!