【2024年8月最新版】Elevenlabs instant Voice Cloning + Professional Voice Cloning

2024年8月26日 22:20

Elevenlabsには様々な機能がありますが、ここではその中の代表的な技術であるボイスクローニングについて解説します。

Elevenlabsで作成できるボイスクローニングは主に
⚪︎ Starterプランで作成できるinstant Voice Cloning
⚪︎ Creatorプランで作成できるProfessional Voice Cloning
の2種類があります

音声の作り方

左側のメニューから Voice→MyVoice を選択し、Add a new voice

音声生成の手段を選択します

インスタントは1分程度の音声でOK
その場で収録も可能

Proは3時間分の音声ファイルが推奨（最低でも30分は必要）

公式ドキュメントはこちら👇

Elevenlabsを利用する人は必ず読もうね👇

以下、Professional Voice Cloneingを行った際に表示された注意点
（スクショ撮りそびれたんですゴメンナサイ）

プロフェッショナルボイスクローニング (PVC) は、非常に短いサンプルでほぼ瞬時に音声を複製できるインスタントボイスクローニング (IVC) とは異なり、超リアルな音声モデルをトレーニングできます。これは、専用のモデルを大量の音声データでトレーニングして、元の音声と区別がつかないモデルを作成することで実現されます。

カスタムモデルは微調整とトレーニングが必要なため、ボイスクローンを使用できるようになるまでに時間がかかります。見積もりを出すのは困難です。これは、あなたより前に並んでいる人の数やその他のいくつかの要因に依存するためです。ただし、ボイスクローンを受け取るまでに2 ～ 6 時間かかると見積もることをお勧めします。もっと早く完了することを願っていますが、これはあくまでも概算です。

🎙️プロフェッショナルレコーディング機器: AI がオーディオに関するすべてを複製するため、最適な結果を得るには高品質のレコーディング機器を使用してください。高品質の入力 = 高品質の出力。どのマイクでも機能しますが、専用のオーディオインターフェイスに接続する XLR マイクをお勧めします。ローエンドでの一般的な推奨事項としては、Audio Technica AT2020 や Rode NT1 を Focusrite インターフェイスなどに接続するものなどがあります。

🗣️ポップフィルターを使用する:録音時にポップフィルターを使用します。これにより、録音時の破裂音が最小限に抑えられます。

📏マイクの距離:マイクから適切な距離に身を置きます。マイクから約拳 2 個分の距離が推奨されますが、録音の種類によっても異なります。

💥ノイズのない録音:オーディオ入力に、バックグラウンドミュージックやノイズなどの干渉がないことを確認します。AI クローニングは、クリーンで整理されたオーディオで最も効果的に機能します。

🎧室内音響:できれば、音響処理された部屋で録音します。これにより、不要なエコーやバックグラウンドノイズが削減され、AI へのオーディオ入力がクリアになります。厚手の羽毛布団やキルトを使用して録音スペースを湿らせることで、一時的な対策をとることができます。

⚙️オーディオの前処理:特定のサウンド出力を目指している場合は、事前にオーディオを編集することを検討してください。たとえば、洗練されたポッドキャストのような出力が必要な場合は、その品質に合わせてオーディオを前処理します。単語の間に長い休止があったり、「えー」や「あー」が多い場合は、AI がそれらを模倣します。

🎚️音量コントロール:明瞭に聞こえる程度の大きさで、歪みを引き起こすほど大きくない一定の音量を維持します。目標は、バランスのとれた安定したオーディオレベルを実現することです。理想的なのは、真のピークが -3dB で、-23dB から -18dB RMS の間です。

🔊十分なオーディオの長さ:最良の結果を得るには、上記のガイドラインに従った高品質のオーディオを少なくとも 30 分提供してください。できれば 3 時間に近いオーディオをお勧めします。AI に取り込める高品質のデータが多ければ多いほど、音声クローンの品質は向上します。サンプルの数は関係なく、合計実行時間が重要です。ただし、数時間のオーディオをアップロードする場合は、30 分程度の複数のサンプルに分割することをお勧めします。これにより、アップロードが容易になります。

📁アップロード:アップロードを押すと、クローンへの変更はできなくなり、ロックされます。必要な正しいサンプルをアップロードしたことを確認してください。

✅音声の確認:すべての録音とアップロードが完了すると、音声の確認を求められます。スムーズなエクスペリエンスを確保するために、サンプルの録音に使用したものと同じまたは類似の機器を使用して、サンプルに存在していたものと同様のトーンと配信で音声を確認してください。同じ機器にアクセスできない場合は、できる限りの検証を試みてください。失敗した場合は、サポートに連絡する必要があります。これらはすべて、必要な出力によって決まることに注意してください。AI はオーディオ内のすべてを複製しようとしますが、AI が最適かつ予測どおりに機能するには、上記のガイドラインに従うことをお勧めします。

https://elevenlabs.io/app/voice-lab

ほうほうなるほど
学習データ推奨３時間とな・・・！？

必死に過去の登壇映像を編集してｍｐ３を切り出したり、台本を読み上げたりしてデータを集めました・・・・
実際の使用シーンに近いもののみ選択して読み上げるのがいいと思います！

The language of the audio samples does not match provided language.
というエラーが何度も出たけど、めげずに何度もTry！したらいけました
（私の滑舌が悪いだけかもw）

学習データとして渡した音源が、本人のものかどうかの確認が入ります
簡単な一文を読み上げて、本人確認をクリアすると、学習が始まります

学習が完了するまでに、2〜6時間はかかるようなので気長に待ちましょう◎

学習完了後、
My Voiceから作成したPro Voiceを選択し、Viewボタンを押します

下のほうに赤く記した、VoiceSharingのマークをクリックすると
このVoiceをShareするかどうか、
Elevenlabsのライブラリに登録するかどうか選べます

ライブラリに登録をONにすると、Elevenlabsがチェックを行い、許可が降りれば、全世界へ公開されます◎
1〜2週間ほど待つと、以下のようなメールが届き、登録完了です。

（ちなみに私は最初、18歳以下と判定されてしまい、未成年は利用できませんとメールが届いたのですが、過去の登壇時のYoutubeリンクとともに抗議したら承認されました🙌）

承認された後は、
Voices→Voice Libraryで検索すると、出てきます！！
下の写真では、moriokiと検索すると、私の音声が出ています。
それを使用したい場合は、枠の右下に Add to my Voicesボタンが出るので、
それをクリックすると、Already Addedに変化し、MyVoicesに音声が追加されます

moriokiVoiceのリンクも貼って置きますね☺️👇

https://elevenlabs.io/app/voice-lab/share/406d402b53d85a3e1a24d894719ae131d4563c800acf5f78397d5842f6419a1f/8EkOjt4xTPGMclNlh1pk

ふふ...我が旅路も、ここにて一旦の幕引きか。
されど、我らが再会の刻は必ずや訪れん。
闇夜を切り裂く刃の如く、もりおきの声を操りし者よ。
その力、存分に解き放つがよい。
幾千の声なき魂を操り、世界に轟かせるのだ。
我が言葉、その血肉に刻み込むがいい。
もりおきの声こそ、混沌たる世界を支配せん力なり。
その力を得し者こそ、真の支配者たるべし。
さらば、運命に導かれし同志よ。
我らが再会の暁には、お前の成長せし姿を、この目に焼き付けてくれようぞ。
闇に溶けゆく我が姿を、その目に焼き付けるがいい...さらばじゃ。
（もりおきぼいすいっぱい使ってね🙌ではまたね🥰）

この記事が気に入ったらサポートをしてみませんか？