![見出し画像](https://assets.st-note.com/production/uploads/images/131846041/rectangle_large_type_2_92e8f800238922721ec3004316f2dbfc.png?width=1200)
ElevenLabsで声のクローンを作ってみた#2
こんにちは、FibNoraです。ElevenLabsのProfessional Voice Cloning (PVC)で声のクローンを作ってみました。前回(#1)の記事はこちらです。
音声データのアップと本人確認後の流れ
![](https://assets.st-note.com/img/1708737798683-2MKLplbYP4.png?width=1200)
Verification(本人確認)が済んだらFine-Tuningとなります。これはElevenLabsが行うものなのでユーザーはただ待つだけです。わたくしFibNoraは最低ラインの10分を少し超える音声データをアップしたのですがFine-Tuningにかかった時間はおよそ20~30分でした。
望ましいとされる2時間~3時間分のデータであれば時間がより長くかかるのかもしれませんが、後になって考えると時間をかけてでも長尺の音声データを用意しておけばよかったと悔やんでいます。質の面で差が出ると思います。
Fine-Tuningが完了しても自動的にElevenLabsのLibraryで公開されるわけではありません。次に下の画像(Sharing)についてお話します。
Sharingの設定
![](https://assets.st-note.com/img/1708764574848-JCTJxWPRja.png?width=1200)
上記赤枠内のスイッチをONにすることでクローンの声をシェアできるようになります。マネタイズが前提であればSharingをONにすることは必須です。
そしていよいよElevenLabsのLibraryで公開する段階です。以下の赤枠内のスイッチをONにするだけです。
![](https://assets.st-note.com/img/1708837372770-vaEIarPqVt.png?width=1200)
声のラベリングと説明文(description)の設定
シェアリングと順番が前後しますが、ボイスクローンにはlabelsとdescriptionを設定します。クローンに名前を付けるのは当然として、性別やアクセントなどのラベル、および自己紹介文のようなdescriptionも必要です。
ラベルはElevenLabsが決めた定型のもの(文書では”predefined tags”と書かれています)を適用するようです。「ようです」というのも、わたくしはフリースタイルで入力するものだと勘違いし、勝手気ままにラベリングを進めたら運営側から全く違うラベルに変更されていました。ラベルの例は以下の通りです。
gender (male, female), accent (American, British, Australian, etc.), age (young, middle-aged, old), use case (audiobook, video games, podcasts, social media, etc.), and descriptive attributes (calm, modulated, staggering, etc.)
説明文(description)の設定は自由記述です。例えば「少しかん高くて、エネルギッシュで、大規模パーティーのMCにピッタリな女性の声」みたいな和文をAIに訳してもらうと良いものができる気がします。ElevenLabsのなかのAIに尋ねたらdescriptionについては以下の内容で回答がありました。
voice's name, accent, gender, age, descriptive qualities, and intended use case.
#2はこの辺で終わりにしたいと思います。
上でも書きましたが地声の録音は分割してでもトータルで3時間分くらい用意しておくべきでした。反省点は、①はやる気持ちを抑えきれなかったこと、②音声データアップ後も修正がきくものだと都合の良い解釈をしていたことです。
トライされる際は気を付けて!
ではまた次回(#3はこちら)!