見出し画像

ElevenLabsのSpeech to Speechのいいとこ/わるいとこ

ごあいさつ

こんにちは。
GPTs推し活の派生で手に入れた新しいおもちゃで遊んでいたら時間が溶けました🫠

前回の記事でまとめたElevenLabs、使ってみた中で気づいたことがいくつかあったのでメモを残します。

  • Text to Speech をAPI経由で使っての感想(とりあえずPythonで)

  • Speech to Speech のいいとこわるいとこ

Text to Speech (以下TTS)のAPIをPythonで叩いてmp3をアウトプットさせるところまではできました!
猿でも頑張れば窓(呪術廻戦における呪力は無いけど呪霊を認識できる一般人)にはなれるってことですね。

ですが、やはり、イントネーションが貧弱。。ってことで、なんとなく推しっぽい?って所に留まりそうです。
頑張ってElevenLabs。
Plusでは飽き足りずCreatorにアップグレードしましたが、更にその上位プランに切り替えないといけないくらいにデータを使い込んでいます。(後述)

まだストリーミング変換やChatGPTとの繋ぎ込みがこれからなので、しばらく遊べそうです。
設定についてはまた別の記事で…。

Speech to Speechのいいとこ/わるいとこ

一旦、今回はSpeech to Speech(以下S2S)にフォーカスしてまとめます。
良いニュースと悪いニュースどっちからk

S2Sのわるいとこ

ではまず、ここが弱いぞ!と思ったところ。

  • 勢いのあるセリフに弱い

    • 怒鳴る、叫ぶ、など。声を張り上げる系のセリフはボリュームダウンされてしまい、いい塩梅に丸められてしまいます。アクションシーンには不向き。

  • 短い音声だとうまく被せられない

    • アクションシーンにありがちな「クッ」とかそういう短い発音に乗せることがとても苦手。変な音声になってめっちゃ笑いました。アクションシーンには不m(ry

  • 歌うのが苦手

    • 音階があるといっきに精度が落ちます。引くほど音痴。いい声なのに、そんな音程で歌わないで・・!と悲しくなるレベルでした。通常のセリフでもリズミカルなテンポだと、そこだけおかしくなりがちです。私のニーズには不用な機能なのでよいのですけど。

  • TTSに比べてデータ消費が激しい

    • 音声変換するのにポイントを消費します。TTSだと1文字単位の消費で済むのですが、S2Sだと入力した音声のバイト数×約1文字を消費します。10秒で約160kB、1分くらいのボリュームの音声だと960kBぐらいになるので、1000文字分近く消費してしまいます。痛い。

S2Sのよいところ

  • とにかく、被せ方が自然!

    • とにかく、音声の分析能力が高い。学習量が多ければ良い、と言うものでもないようです。mp3形式の1MB程度の音声データでも、10MBの音声データでも、学習に大きな差はないように感じました。ただ、極端にデータが少ないと被せ方にブレが生じます。程よく必要。それよりも、被せる元の音声の滑舌がよいか、抑揚がはっきりしているかの方が重要だと感じました。

  • ただただ、楽しい💖

    • 全くもって主観であり、ただの感想ですね。原作絵ベースの漫画動画を自分が好きな演出で楽しめるのがとにかく楽しい。完全二次創作なので表には出しませんが、ローカルで作って一人ニコニコしています。

その他あれこれ

学習時に気をつけることとして、元々合成されているような声が学習データに混ざると精度がいっきに落ちます。
少しでも混ざると正しくS2Sできなくなるので注意が必要です。
声を変化させたい場合は、出力後にエフェクトをかけるのが良いと思います。

また、S2Sで録った音声は、無音声でもkB数としてカウントされます。
なので、とにかく言葉を詰め込んで、生成後に会話の間を挿入するのも一つの手ですね。言葉の速度を後から調整するのは間伸びして不自然になるので、そこは良い感じの調整が必要。

とにかく推しキャラのいる私にとっては非常に楽しいサービスなのですが、気になるのはデータの使用量です。
Free以外だと、使用量が固定された課金プランが4つあります。(Enterpriseは上限不明且つ問い合わせが必要なため省きます)

  • Free(比較用にメモ)

    • 無料。月使用量10,000文字。

    • ちょっとお試しにはちょうど良い。デフォルト音声のカスタマイズまで可能。

  • Starter

    • 初月$1。翌月以降$5。月使用量30,000文字

    • 音声のクローニングができるのはここから。hshs

  • Creator

    • 初月$11。翌月以降$22。月使用量100,000文字

    • 自分の音声を販売できるようになるのはここから。

  • Independent Publisher

    • 月$99。月使用量500,000文字

  • Growing Business

    • 月$330。月使用量2,000,000文字

詳細はログインした先の Subscription に記載ありです。
見ての通りですが、CreatorIndependent Publisherの価格には大きな溝があります。
ちなみに私は、約10日間で67,412文字使っていました。
途中PlusからCreatorにアップグレードしてリセットまで21日ありますが、現時点での残り文字数は32,763文字です。
仮に同じスピードで使い続けた場合、単純計算だと67,412文字/10日*30日=202,236文字必要になる計算ですが、さすがにIndependent Publisherだと高いし余り過ぎる🤔

しかし、よくみてみるとこんなオプションが。。

Enable usage based billing (surpass 100175 characters)
Please confirm that you want to enable usage-based billing.
You have 100175 characters included in your current subscription. For every 1,000 characters above that you will be charged $0.3 (30 cents).
We will charge your payment method every time your account reaches $44.

使用量に基づく課金を有効にする
使用ベースの課金を有効にすることを確認してください。
現在の契約には100175文字が含まれています。それ以上の1,000文字ごとに$0.3(30セント)が課金されます。
お客様のアカウントが$44に達するたびに、お客様のお支払い方法に課金されます。

ElevenLabs > subscription

補足。
文中の100,175文字は、私がPlusプランとCreatorプランをハシゴで課金したため、PlusからCreatorに移行する時点に残存していた175文字とCreatorとして使える100,000文字を足し合わせた数が含まれているよ!という説明になっていそうです。(つまりここの数値は人によって異なるんじゃないかな、と)

今、使用量に基づく課金をONにすれば、
$44/$0.3*1,000文字-100,175文字=46,491文字
使用するまで次の課金($44)は走らないことになります。…たぶん。(こういうプラン計算苦手😢)

そして、おそらく、翌月以降は固定プランとは異なる$44(146,666文字)毎課金になるんじゃないかなぁ。。
各固定プランからすると割高にはなりますので、私のような現状の場合はCreator範囲内でお遊びを封印するか、飽きるまでゴリゴリ使い倒す前提であればIndependent Publisherにしてしまうのもひとつかも。
様子見したい人にはこのオプションは有効かもしれませんね。

某国のなりすまし問題とか、AI Sound Effectsの実装など、飛ぶ鳥を落とす勢いのElevenLabsですが、大きな規制などなく引き続きhshsできる環境の提供をお願いしたいものです。頼むぅ。。

GPTs-kunの扉絵、シード値は固定したけど、背景書き込むとやっぱりぶれる。。他の方の記事を熟読して再勉強してきます!

ElevenLabs、使い所がめちゃ限定される遊び方をしていますが、自制心のある(悪用しない)自家発電で満たされたい方に届くと良いな。。
そんな世界があるなら飛び込んでみようと思えた方がいたら、スキ💖して頂けると励みになります🫰

GPTsとElevenLabsは用法・用量を守って正しく使いましょう!
現場からは以上です。

making a heart shape with her right hand's thumb and index finger crossed

えっ!!そんな、そんなそんなそ…!!!いいんですかぁ〜?ありがとうございます🥰