ElevenLabs で Instant Voice Cloning を試す

2024年11月6日 15:17

「ElevenLabs」で「Instant Voice Cloning」を試したのでまとめました。

前回

1. Instant Voice Cloning

「Instant Voice Cloning」(IVC) は、短いサンプルから瞬時にボイスクローンを作成できます。カスタムAIモデルを学習したりすることはありません。代わりに、学習データからの事前知識を利用して、根拠のある推測を行います。これは、多くの音声に対して非常にうまく機能します。

IVCの制限は、独特なアクセントを持つ非常に音声をクローンしようとする場合、AIが学習中に以前に同様の音声を聞いたことがない可能性があることです。このような場合は、「Professional Voice Cloning」(PVC) を使用して明示的に学習したカスタムモデルを作成するのが最善の選択肢です。

2. 使用料金

使用料金は次のとおりです。「Voice Cloning」は「Starter」($5/月)から利用可能です。

3. モデル

日本語ボイスのクローンが可能なモデルは、以下の2つです。

・Turbo v2.5 (model_id = eleven_turbo_v2_5)
高品質でレイテンシが最も低いモデルです。速度が重要となる開発者のユースケースに最適です。32言語をサポートしています。

・Multilingual v2 (model_id = eleven_multilingual_v2)
安定性、言語の多様性、アクセントや音声の再現精度に優れたモデルです。29言語をサポートしています。

4. 提供する音声

音声をクローンするには、1〜2分の音声が必要です。
提供する音声の条件は、次のとおりです。

4-1. 音声の品質

適切なクローンを作成するために最も重要なものは、音声そのもの、言語とアクセント、そして録音の品質です。リバーブ、アーティファクト、バックグラウンドノイズが一切ないクリアなオーディオが約 1～2 分続くのが最適です。

4-2. 音声の長さ

音声の長さは品質ほど重要ではありませんが、ある程度までは重要な役割を果たします。入力音声の長さは最低でも1分にする必要があります。3分を超えて追加することは避けてください。3分を超えて追加してもほとんど改善されず、場合によってはクローンに悪影響を及ぼし、不安定になることもあります。

4-3. 音声の一貫性

また、音声の品質とパフォーマンスはすべてのサンプルで一貫するようにします。1つのサンプルのみを使用する場合でも、サンプル全体を通じて一貫させてください。ピッチと音量が大きく変動する非常に動的なAIオーディオを入力すると、予測しにくい結果になります。

4-4. 音声の音量

音声の音量が小さすぎず大きすぎないように適切なバランスを見つけます。理想的なのは、真のピークが -3 dB で -23 dB から -18 dB RMS の間です。

4-5. オーディオコーデック

オーディオコーデックは、128 kbps以上のMP3を使用すると問題なく機能します。ビットレートを高くしても複製品質が著しく向上することはないようです。

4-6. AIは聞いたものすべてマネしようとする

AIは提供した音声をすべてをマネしようとします。話すスピード、抑揚、アクセント、音色、呼吸のパターンと強さ、ノイズ、口のクリック音など、AIを混乱させる可能性のあるノイズやアーティファクトもすべてマネしようとします。感情をあまり表に出さずにゆっくりとした単調な声で話すと、AI はそれを真似します。

法的な観点から何が許可されるか不明な場合は、利用規約とAI 安全性に関する情報を参照してください。

5. 音声のクローン

音声のクローンの手順は、次のとおりです。

(1) 「VoiceLab」(メニューのVoices)の「Add a new voice」をクリック。

(2) ボイス名(name)を入力し、音声をアップロード (または録音)し、バックグラウンドノイズ除去 (Remove background noise from audio samples) をチェック。

(3) 利用許諾を確認してチェックし、「Add Voice」をクリック。
すぐに生成完了します。

(4) 新規ボイスが追加されているので選択。

(5) 動作確認。