この新しいAIの音声合成が全てを超える。感情表現を完全制御

2025年2月14日 20:27

10,279 文字

AIテクノロジーの情報を詳しく知っているプロとして、この新しい音声合成ツールについてお話しさせていただきます。皆さん、私はあらゆる音声モデルを知っていますが、cyphusは最高級のツールだと断言できます。これは全てを変えようとしています。
私は忙しい身ではありますが、これには本当に注目せざるを得ませんでした。Iyerが一歩下がって、初めから考え直してこれを作り上げたことは明らかです。私たちのモデルはApache 2.0ライセンスの下で完全にオープンソース化されており、無制限の音声クローニングが可能です。
これは現時点で利用できる最高のテキスト読み上げジェネレーターです。無料でオープンソースで、どんな声でもクローンできます。さらに声の感情までコントロールできるのです。これは以前のテキスト読み上げオプションよりもはるかに柔軟性があります。
このビデオでは、オフラインで無料で実行できるようにインストール方法を説明し、もちろんその仕組みとデモについても見ていきます。
このツールはZerによる「zos」と呼ばれ、使い方はとても簡単です。10秒程度の音声サンプルをアップロードし、話させたいテキストを入力するだけで、その声をクローンして話させることができます。
例を見てみましょう:
「私は何と呼ばれてもかまいません。私は静かな観察者として、種の進化や帝国の興亡を見守ってきました。しかし、覚えておいてください。私は力強く、永遠なのです。私を敬えば育みましょう。無視すれば、その結果を味わうことになります」
超自然的で、適切な場所に間（ま）が入っています。これは自動バージョンですが、後ほどビデオで文章の感情をカスタマイズする方法をお見せします。
有料で高額な主要テキスト読み上げジェネレーターの11 Labsと比較してみましょう。11 Labsはこんな感じです:
「私は何と呼ばれてもかまいません。私は静かな観察者として、種の進化や帝国の興亡を見守ってきました。しかし、覚えておいてください。私は力強く、永遠なのです。私を敬えば育みましょう。無視すれば、その結果を味わうことになります」
11 Labsはより機械的に聞こえるのに対し、この新しいzosツールは無料なだけでなく、より自然でリアルに聞こえることがおわかりいただけたと思います。
別の例を見てみましょう。テキストを読み上げてもらいましょう:
「皇帝の表情は変わらず、彫刻のように静かなままでした。その目に暖かな光が宿り、忠実な大臣を深く見つめて、ついに口を開きました。『よろしい、もう一度考えてみよう』その声は低く固く、空気の中にかすかな無力感と優しさを残しました」
再び超リアルです。次の文章に移る際の息遣いまで聞こえます。また引用部分も非常にリアルに処理しています。
比較のために11 Labsの例を聞いてみましょう:
「皇帝の表情は変わらず、彫刻のように静かなままでした。その目に暖かな光が宿り、忠実な大臣を深く見つめて、ついに口を開きました。『よろしい、もう一度考えてみよう』その声は低く固く、空気の中にかすかな無力感と優しさを残しました」
正直なところ、11 Labsも非常に優れていますが、引用部分の声が「低く固く」なっていないことに注目してください。zosはより文脈を理解しており、11 Labsと比べてわずかにより現実的に聞こえると言えます。
別の例を見てみましょう:
「お前はゴッドファーザーとも呼ばないで、娘の結婚式の日に私の家に来て、金で人殺しを頼むのか」
これは異なるアクセントの例ですが、全てが本当に自然に聞こえます。11 Labsの結果を聞いてみましょう:
「お前はゴッドファーザーとも呼ばないで、娘の結婚式の日に私の家に来て、金で人殺しを頼むのか」
悪くないですね。これは本当に接戦です。どちらの生成も素晴らしいですが、zosは完全に無料で使えるのに対し、11 Labsは有料で高額だということに注目してください。
早口言葉の例を見てみましょう:
「勇敢なパン屋たちは大胆に大量のブラウニーを美しいパン屋で焼く」
そして11 Labsを聞いてみましょう:
「勇敢なパン屋たちは大胆に大量のブラウニーを美しいパン屋で焼く」
再び、どちらも本当に良い出来です。
より会話的なテキストを処理できるか見てみましょう。zonoはこんな感じです:
「私が友達と話していたら、彼女がヨーロッパ旅行にすごく、えーと、興奮していて、私はもう、すっごく嫉妬してるの」
とても良いですね。では11 Labsを聞いてみましょう:
「私が友達と話していたら、彼女がヨーロッパ旅行にすごく、えーと、興奮していて、私はもう、すっごく嫉妬してるの」
私はzosのバージョンの方がわずかに好みですが、コメント欄で皆さんの意見を聞かせてください。
これは本当に奇妙で挑戦的な文章です。意図的に混乱させようとしているようですが、zosがどう処理するか見てみましょう:
「熟練のシェフは、味の交響曲を織りなし、美食家たちの舌に消えることのない印、印、印、印、印を残すような料理の傑作を演出した」
悪くありません。では11 Labsを聞いてみましょう:
「熟練のシェフは、味の交響曲を織りなし、美食家たちの舌に消えることのない印、印、印、印、印を残すような料理の傑作を演出した」
この場合、私は11 Labsの方が少し好みですが、正直なところ両方の品質は本当に良いです。
しかしデモはもう十分です。実際に自分でテストしてみましょう。インターフェースはこのような感じで、後ほどビデオで段階的なインストール方法を詳しく説明しますが、感情などの高度なパラメータも設定できます。
まずは本当に単純なテキスト読み上げ生成をしてみましょう。ここにテキストを貼り付け、これを一旦消して、そしてここに約10秒程度の人の声を入れると、その人の声をクローンしてこのテキストを話させることができます。
まずはアメリカ人女性のクリップをアップロードしてみましょう。まずこれを再生してみます:
「こんにちは、スマートで自信に満ちた、フレンドリーな若い大人の声が必要ですか？私は準備ができています。さあ、あなたの聴衆を完全に魅了しましょう」
これらの設定については後で説明しますが、まずは音声生成をクリックして何が出てくるか見てみましょう。
これが結果です。少し拡大して、入力したプロンプトが見えるようにしましょう。再生してみます:
「これは単純なテストの文章です。テキスト読み上げジェネレーターの明瞭さと正確さを評価するために設計されています」
とても良いですね。まだ感情は指定していませんが、全て自動です。そしてここをクリックすると音声をダウンロードできます。
さて、簡単なテキスト読み上げはこれくらいにして、これらの設定を見ていきましょう。まずこのプレフィックスオーディオは、このオーディオクリップから開始したい場合にアップロードできる基本的なオーディオクリップです。通常は必要ないので空のままにしています。
そしてここはクローンしたい声を入力する場所です。このボイスサンプルにノイズが多く、クリアにするためにノイズ除去が必要な場合はここにチェックを入れますが、このボイスサンプルは良好なので、オフのままにしておきます。
上部では2つの異なるモデルを選択できます。これらは何を意味するのでしょうか？ブログページに行って一番下までスクロールすると、2つのモデルのパフォーマンスが表示されています。青いのは元のTransformerモデル、緑のはハイブリッドモデルです。両方のチャートで、ハイブリッドモデルはTransformerモデルよりも少し速くオーディオを生成することがわかります。そのため、デフォルトのHigh hbdモデルを使用して、より速く生成できるようにします。
そしてここで言語を選択します。少し下にスクロールすると、たくさんの設定があります。全て見ていきましょう。
GitHubで詳しい情報を読むことができますが、簡単に説明すると、DNS MOSは感情と言語にどの程度影響されるかを決定します。ここでは、非常にクリアで中立的な英語の音声を得るには4に設定すると書かれていますが、より感情的にしたい場合はこの値を調整します。
F Maxは基本的にオーディオの最大周波数です。最良の結果を得るには22,000または24,000を選択すると書かれているので、デフォルトのままにしておきます。
VQスコアも表現力に影響を与える設定です。高品質な音声には78が良い値だと書かれています。
ピッチの標準偏差は、基本的にピッチの変動をどの程度にしたいかということです。より高い値に設定すると、ピッチの動的な変化が大きくなり、より表現力豊かな音声になります。
発話速度は、話者にどのくらいの速さで文章を読ませたいかということです。私は通常これらをデフォルトのままにしていますが、さらに高度なパラメータもあります。
そして、多くの方が楽しみにしている機能だと思いますが、これに感情を追加することができます。これは少し紛らわしいのですが、このボックスをアンチェックした場合にのみ機能します。チェックすると無条件になり、つまりこれらの感情を自動的に設定します。
また、これらの他の設定のいくつかをチェックした場合、例えばVQスコアと発話速度をチェックすると、上で設定したVQスコアと発話速度を無視します。これをアンチェックして、デフォルト値に従うようにしましょう。
次に、これをチェックしたままにして、これらの感情設定を無視し、別の声をアップロードしてみましょう。サンプルを再生してみます:
「このインディー映画祭は魅力的そうですね。映画の視野を広げに行きませんか？」
これは別の声をクローンします。これも約6秒だけです。そしてドキュメントを見ると、テキストに基づいて自動的に感情を組み込むようです。これは文脈を理解しているような感じです。かなり怖いプロンプトを貼り付けてみましょう:
「聞こえましたか？怖いです。暗闇で何かが動いているような音がしました」
そして、これらの感情設定を設定せずに、この女の子にこれを恐れた口調で言わせられるか見てみましょう。下にスクロールして生成をクリックします:
「聞こえましたか？怖いです。暗闇で何かが動いているような音がしました」
正直なところ、中立的ですね。彼女はそれほど怖がっているようには聞こえません。感情を指定しない場合、どのように聞こえるかの感覚がつかめたと思います。
次に、このボックスをアンチェックして、これらの感情スライダーを使用できるようにし、幸福度をゼロまで下げ、恐怖を1まで上げ、中立を0.6に設定して、もう一度音声を生成してみましょう:
「聞こえましたか？怖いです。暗闇で何かが動いているような音がしました」
とても良いですね。少なくとも私には、全て自動に設定した前の生成よりも恐怖を感じます。コメント欄で、どちらがより怖がっているように聞こえるか教えてください。
次に、イギリス人男性の声をアップロードしてみましょう。まずこれを再生してみます:
「ヒッチハイカーズガイドによれば、飛行には芸術的なコツがあります。それは、地面に向かって投げ出され、それを回避することを学ぶことにあります」
これも8秒という短いサンプルです。では、幸せなプロンプトを試してみましょう:
「今日は素晴らしい日です。太陽が輝いていて、全てが完璧に感じられます。笑顔が止まりません」
まず、この感情ボックスにチェックを入れて、これらの設定を無視し、感情を自動に設定してみましょう。ここで感情を自動的に検出して、良い音声サンプルを生成できるか見てみましょう。下にスクロールして生成をクリックします。
ちなみに、私は16GBのVRAMを搭載したRTX 5000 Adaを使用していますが、これはかなり速く、音声の生成に10秒もかかりません。これが結果です:
「今日は本当に素晴らしい日です。太陽が輝いていて、全てが完璧に感じられます。笑顔が止まりません」
このプロンプトに適切な感情と表現力が組み込まれているのがわかります。とても良いですね。
次は実際に感情をカスタマイズしてみましょう。このボックスをアンチェックして、恐怖をゼロまで下げ、嫌悪もゼロにし、幸福度を1まで上げて、音声を生成してみましょう:
「今日は本当に素晴らしい日です。太陽が輝いていて、全てが完璧に感じられます。笑顔が止まりません」
とても良いですね。このプロンプトに幸福感が加わっているのがわかります。
では、この人を幸せにするのではなく、同じプロンプトを本当に悲しく嫌悪感のある口調で話させてみましょう:
「今日は本当に素晴らしい日です。太陽が輝いていて、全てが完璧に感じられます。笑顔が止まりません」
はい、そうですね。前の生成ほど幸せそうではありません。この生成には悲しみや嫌悪感が感じられますが、コメント欄で皆さんの意見を聞かせてください。
次に試してみたいのは、実際に悲しそうなサンプルをアップロードして、これらの感情を設定せずに、元の声の悲しみをクローンできるか見てみることです。サンプルを再生してみましょう:
「もう早く終わらせてくれないか。体がきつくなってきている」
本当に悲しそうな、泣いている男性の声です。では、本当に悲しいプロンプトを追加してみましょう:
「私はとても悲しいです。なぜこんなことになってしまったのでしょう。全てが崩れ落ちていくように感じます」
下にスクロールして、この感情ボックスにチェックを入れ、これらの感情を無視するようにしましょう。この声の悲しみを自動的にクローンできるか見てみましょう:
「私はとても悲しいです。なぜこんなことになってしまったのでしょう。全てが崩れ落ちていくように感じます」
これが結果です。興味深いですね。元のクリップの悲しみを多少クローンしています。
次に、これをアンチェックして感情を調整できるようにし、悲しみを1まで上げ、恐怖も少し加えてみましょう。音声を生成して、これがより悲しく聞こえるか見てみましょう:
「私はとても悲しいです。なぜこんなことになってしまったのでしょう。全てが崩れ落ちていくように感じます」
素晴らしい、これは本当に素晴らしいです。本当に悲しく聞こえます。各感情の強さを個別に調整できるこの機能は本当に気に入りました。
次に、guraの声サンプルをアップロードしてみましょう。元の音声はこんな感じです:
「人と話すとき、アイコンタクトを取るのに緊張しますか？それとも、話すときに人をじっと見つめるタイプですか？チャットで見つめ合いコンテストをしましょうか。私はアイコンタクトが苦手なんです」
これも10秒という短いクリップです。英語ではなく、フランス語を話させてみましょう。ここに貼り付けて、フランス語を選択します。全ての設定を同じにして、生成をクリックします。
正確には聞こえませんね。これを閉じて、フランス語のテキストが見えるように拡大してみましょう。もう一度再生してみます。
まあ、この文章を話しているような感じはしますね。フランス語を話される方は、これがひどく聞こえるのか、それとも実際にまともなのか教えてください。
ちなみに、英語、日本語、中国語、フランス語、ドイツ語をサポートしているとありますが、日本語は私の環境では動作せず、このドロップダウンで中国語も見つけることができません。残念ながら、多言語に関しては本当にうまく機能しないようです。
今度はドイツ語を試してみましょう。このドイツ語のプロンプトを貼り付けて、ドイツ語を選択し、別の声を使ってみましょう:
「最近頑張りすぎですね。リラックスするための肩マッサージはいかがですか？」
これはcingからの声サンプルです。では、彼女にこのドイツ語を発音させてみましょう。
私はドイツ語を話せないので、これが正確に聞こえるかどうかわかりませんが、ドイツ語を話される方は、コメント欄でこれが完全にひどいのか、それとも実際に正当なのか教えてください。
これが、このツールでできること、できないことのデモです。次は、これをインストールしてローカルで実行する方法を説明していきましょう。
AI portraitの提供でお送りしています。LinkedInやビジネスプロフィールの良い専門的な写真は大きな違いを生みます。自分で撮影したり、友人に頼んだりすることもできますが、ほとんどの人は専門的な写真を撮るのが得意ではありません。
または、プロのフォトシュートを依頼することもできますが、これは平均して200ドル以上かかり、セッションのスケジュールを組んで、カメラの前で何時間も気まずくポーズを取る必要があります。
そこでAI portraitの出番です。数分で高品質なプロフェッショナル写真のポートフォリオを生成できます。1枚の写真をアップロードし、性別を選択するだけで、様々な設定で50枚のプロフェッショナルなヘッドショットのポートフォリオを生成し、数分以内に完成します。
物理的なフォトシュートの手間なしに高品質なプロフェッショナル写真が必要な場合、AI portraitが最適な選択肢です。説明欄のリンクからチェックしてみてください。
全ての手順は彼らのGitHubページにあります。まず、下にスクロールすると、6GB以上のVRAMを搭載した最新のNVIDIA GPUが必要だと書かれています。
ここではLinuxシステムのみをサポートすると書かれていますが、これはおそらく皆さんの多くが持っていないと思います。実は、Windows用のzosをサポートする別のフォークがあり、これはワンクリックでインストールできる本当に簡単なものです。今日はそれを使用します。
しかし、これを実行するのに十分なGPUを持っていない場合、オンラインでzosを使用するためのチャットインターフェースもあります。とはいえ、このインターフェースには、これらのパラメータの調整や感情の調整などのオプションは含まれていません。残念ながら、オンラインプラットフォームを使用する場合、全て自動になります。
簡単な例として見せてみましょう。このイギリス人女性を使って、生成をクリックします。どんな感じか聞いてみましょう:
「こんにちは、zosへようこそ。デフォルトの声の1つを試すか、ランダムな声をテストしてみてください」
悪くないですね。これは11 Labsに対する無料のオンライン代替手段ですが、私たちはローカルにインストールする方法に戻りましょう。
GitHubに戻って、Windowsを使用しているので、Windows用のローカルインストールを行います。最初のステップは、gitを使用してこのリポジトリをコンピュータにクローンすることです。これにはgitがインストールされている必要があります。gitがインストールされていない場合は、インストール方法を説明します。すでにgitがインストールされている場合は、次のセクションまでスキップしてください。
必要なのは、使用しているオペレーティングシステム用の最新リリースをダウンロードすることです。私はWindowsを使用しているので、Windows用のダウンロードをクリックします。64ビットを実行しているので、これをクリックしてダウンロードします。
今、このexeファイルをダウンロードしています。完了したら、そのexeファイルを開いて手順に従うだけです。次をクリックして、デフォルトのインストール場所であるprogram files SLGを使用します。次をクリックして、これをデフォルトのままにして、また次をクリックします。
これらは全てデフォルト設定を使用します。設定がたくさんあるので、これらすべてに対して次をクリックしていきます。そして、全てのファイルをインストールします。これには数分かかる場合があります。
完璧です。これでGitがインストールされました。Gitがインストールされていると仮定して、次のステップはgitを使用してこのリポジトリをクローンすることです。コンピュータの好きなフォルダにクローンできますが、私はデスクトップにクローンします。
デスクトップを開いたら、上部をクリックしてCMDと入力し、基本的にデスクトップでコマンドプロンプトを開きます。次のステップは、ここでこのボタンをクリックし、このURLをコピーして、コマンドプロンプトに戻ってgit cloneと入力し、URLを貼り付けます。
それが完了したら、デスクトップにこのzosフォルダが表示されるはずです。これを開くと、ここに表示されている全てのファイルとフォルダが含まれていることがわかります。
次のステップは、管理者としてPowershellウィンドウを開くことです。Windowsの検索バーでPowershellを検索し、管理者として実行をクリックします。次に、これを入力して答えにaを入力します。これをここにコピーして貼り付けます。
aと答えて、このウィンドウを閉じます。それが完了したら、ワンクリックインストールです。Powershellを使用してこれを実行するだけです。
これらのオープンソースAIツールをインストールする場合、仮想環境を作成してそこに全てをインストールするのがベストプラクティスです。仮想環境は、その特定のツールのパッケージと依存関係を含むコンピュータの別のハードドライブのようなものと考えてください。
分離する理由は、コンピュータに既にある可能性のあるパッケージや依存関係、ツールと競合しないようにするためです。しかし、このinstall.PS1ファイルを開くと、自動的に仮想環境を作成してくれることがわかります。そのため、実際にその手順を手動で行う必要はありません。
フォルダに戻って、これを右クリックしてPowershellで実行をクリックします。それだけです。今、UVという依存関係をインストールしているのがわかります。そして仮想環境を作成しています。Python 3.10を使用しており、setup tools、wheel、flash attention、Mambaなどの追加要件をインストールしています。これはインターネットの速度によって時間がかかります。
次に、2GB以上のサイズのtorchをインストールしているので、これも時間がかかります。全てがうまくいけば、インストール完了のメッセージが表示されます。エンターを押すと、ウィンドウが自動的に閉じます。
インストールに必要なのはこれだけです。Windowsの場合はワンクリックインストールです。これを実行するには、これをダブルクリックするか、自動的にPowershellを使用しない場合は、右クリックしてPowershellで実行を選択することもできます。
初めて実行する場合、ライブラリの作成にも数分かかることに注意してください。その後、このgradioインターフェースが自動的にブラウザで開きます。Chromeブラウザを使用していますが、このページは完全にローカルで、オンラインページではありません。
コマンドプロンプトを開くと、safe densersファイルをダウンロードする必要があるようです。これは基本的に音声を生成するモデルで、3GB以上のサイズがあるので、インターネットの速度によって時間がかかる場合があります。
safe tensorファイルのインストールが完了すると、このgradioインターフェースが実行可能になります。これを閉じて、一からどのように開始するか実際に示してみましょう。次の日などの場合です。
本当に簡単で、zosフォルダを開いて、このrun gradio PS1ファイルを右クリックし、Powershellで実行するだけです。すると自動的にブラウザのこのアドレスでgradioインターフェースが開きます。これがインストールして実行する方法です。
これでzonosテキスト読み上げのインストールチュートリアルとレビューは以上です。繰り返しになりますが、これは11 labsと同等かそれ以上の無料のオープンソース代替ツールで、素晴らしいところは音声の感情を指定できることで、より多くの多様性が得られます。
コメント欄で皆さんの意見を聞かせてください。また、インストールや実行中にエラーが発生した場合も、コメント欄にエラーメッセージを貼り付けていただければ、できる限りトラブルシューティングのお手伝いをさせていただきます。
いつも通り、トップAIニュースとツールを探して皆さんと共有していきます。このビデオを楽しんでいただけたなら、いいね、共有、購読をお願いします。次のコンテンツもお楽しみに。
また、AIの世界では毎週本当にたくさんのことが起きているので、YouTubeチャンネルですべてをカバーすることはできません。AIで起きていることを本当に最新の状態に保つために、無料の週刊ニュースレターを購読することをお勧めします。リンクは説明欄にあります。
ご視聴ありがとうございました。次回お会いしましょう。

この新しいAIの音声合成が全てを超える。感情表現を完全制御

いいなと思ったら応援しよう！