見出し画像

ElevenLabsで声のクローンを作ってみた#1

こんにちは、FibNoraです。声のクローンを作り、マネタイズもできることで話題になっているElevenLabs "Professional Voice Cloning"を試しました。

クローン作製に必要なこと

まずはプランとお金の話です。Professional Voice Cloning (PVC)によるクローン作製はCreatorプラン(月額$22(初月のみ$11))か、それよりも上位のプランに加入することが必要になります。

次にクローン作製に際して最低10分間(推奨は30分以上、できれば2時間以上、Documentationのなかでは理想は3時間とElevenLabs自身いろんな見解を述べています)の地声の録音が必要になります。しかし2024年2月時点では日本語によるPVCには対応していないようです。PVC対応言語は英語、ドイツ語、ポーランド語、スペイン語、イタリア語、フランス語、ポルトガル語、ヒンディー語。クローニングプロセス終盤のVerificationでは対応言語を理解する「人間」でないと読みづらい文章が表示されます。その文章を15秒以内に自らの声で読み上げ、地声の録音データとのマッチングが正しくなされれば本人確認が完了となります。

視覚障害のある方や、言語は理解していても何らかの理由で15秒以内に読み上げられないケースはいくらでもあろうかと思われます。但し書きを読むと、そのような場合は"read aloud any text you want"とのこと、録音データと同じ言語で何らかの発声をし、それを3回繰り返し、ヘルプセンターへリクエストを上げることでVerificationとなるような書きぶりです。

Verificationの但し書き

ちなみにわたくしFibNoraは与えられた5回の読み上げチャンスすべて失敗し、Verificationそのものがロックされました。マイクがOFFになっていたんです。ボリュームのチェックができるレベルメーターが表示されているにもかかわらず、です。これを読んでいる方には同じ過ちが起こりませぬよう(祈)

5回失敗でロックかかりました

余談ですが、ヘルプセンターにVerificationしくじったからリセットしてほしいとメッセージを投げたところ45分くらいでリセットの連絡が来ました。AIによる事務的で冷淡な返信かと思いきや割と寄り添ったメッセージをいただけたので、今度は対応スピードと親切なアドバイスにお礼を返したら"You're welcome! Have a nice day:)"ですって。相手方がAIであっても人間であってもどっちにしてもほっこりした、というお話です。

「ElevenLabsで声のクローンを作ってみた#2」ではVerificationの次のステップ、そして一般公開直前の声の「ラベリング」などについて触れています。
またお会いしましょう!


いいなと思ったら応援しよう!