
この無料AIテキスト読み上げがヤバい! 感情を加えてポッドキャストも作れる
22,032 文字
はい、この無料のテキスト読み上げ音声クローンが今まで使ったなかで一番ええですわ。声の感情をコントロールできるんです。
「誰も気に入ってくれへんかったらどないしよう。このすべての努力が無駄やったらどないしよう」
数え切れんほどの夜更かしの後、疲れ果てたけど、夢を追い続ける価値があるって分かってるんです。
これを使えば、オーディオブックやポッドキャストを簡単に作れますよ。
アンナ、それよう分かりますわ。経験を逃すのは怖いもんですね。正直言うて、もうこんな気持ちにうんざりしてるんです。今日のトピックに入って、この憂鬱な気分を吹き飛ばしましょう。
それに、ほんの数秒の参考音声があれば十分なんです。
何よりも、これが無料でオープンソースやということが素晴らしいですね。
この動画では、このツールの使い方と、ローカルのコンピューターにインストールする方法をお見せしますわ。
まず、このツールはF5 TTSと呼ばれてます。これは拡散トランスフォーマーアーキテクチャに基づいてるんです。これは今最高の画像生成器やビデオ生成器の基盤にもなってるアーキテクチャですね。
で、この拡散トランスフォーマーアーキテクチャが、テキスト読み上げと音声クローンにも上手く働くことが分かったんです。
ほな、いくつか例をお見せしましょう。
まず驚くべきは、ほんの数秒の音声があれば十分なんです。例えば、ここに参考音声がありますが、たった5秒です。聞いてみましょうか。
「Some call me nature, others call me mother nature」
たった5秒の音声で、このスクリプトを読ませたらこうなりました。
「I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you. Ignore me and you shall face the consequences.」
中国語でもうまく機能しますよ。ここに同じ声で中国語のスクリプトを読んだものがあります。
はい、かなりええ感じですね。
ほな、もう一つ例を見てみましょう。これが元の音声です。聞いてみましょうか。
「Slice the steak and place the strips on top. Then garnish with the dried cranberries, pine nuts and blue cheese.」
かなりドラマチックな声ですね。これは9秒の参考音声です。同じ声でこのスクリプトを読ませたらこうなりました。
「Perhaps they are driven by the delicious blend of flavors. Or it could be the appealing visual presentation. At the end of the day, our choices in food reflect our personal preferences and sometimes even our lifestyle or belief system.」
元の声のトーンや表現力をよく再現できてるのが分かりますね。
ここにも中国語の例があります。同じ声で中国語を話してます。違う言語でも、元の声のトーンや表現力をよく再現できてるのが印象的です。
ほな、女性の例も見てみましょう。まず元の音声を聞いてもらいます。これは14秒ほどあります。
「You don't know how much trouble you've gotten yourself into. Look, if one of the others get to you first, they'll report you. Alpha Grant has a search out and if they see you on human territory, they'll be shunned.」
かなり怖がってパニックになってる声ですね。このテキストを読ませてみましょう。
「Your safety and the pack's reputation are at stake. Your bravery is admirable, but sometimes bravery is knowing when to retreat. Please consider returning with me. We can work out a plan, but only if you're willing to listen.」
怖がってパニックになってる声をよく再現できてるのが分かりますね。
他にもいろいろできることがあります。例えば、同じ文の中で異なる言語を混ぜることもできます。まず元の音声を聞いてみましょう。
ワオ、かなりドラマチックな邪悪な魔女の声みたいですね。これに中国語と英語の単語を混ぜたテキストを読ませてみましょう。
はい、非常に面白いですね。
速度もコントロールできます。ここに元の音声があります。
「Some call me nature, others call me mother nature.」
そして、これが読ませるテキストです。ただ、1倍速じゃなくて、7倍速に指定してみましょう。どんな感じになるか聞いてみましょう。
「I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you. Ignore me and you shall face the consequences.」
全体的にええ感じですが、ここのセミコロンの後のポーズを無視してしまってますね。
ほな、1.3倍速で聞いてみましょう。
「I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you. Ignore me and you shall face the consequences.」
確かに少し速くなってますね。ここでもセミコロンの後のポーズを無視してしまってます。セミコロンが邪魔してるんやと思います。でも、それ以外はかなりええ感じですね。
他にもできることがあります。これがF5 TTSの一番印象的な機能やと思います。同じ声の異なる感情のクリップをアップロードして、その感情でテキストを出力させることができるんです。
例えば、ここに元のクリップがあります。これが彼女の幸せな声です。聞いてみましょう。
「Kids are talking by the door.」
ほな、この幸せなトーンでこのテキストを読ませてみましょう。
「I was like, talking to my friend and she's all, um, excited about her, uh, trip to Europe and I'm just like, so jealous, right?」
はい、確かに幸せなトーンが入ってますね。
次に、彼女の悲しい声があります。
「Kids are talking by the door.」
このサンプルは2秒しかありませんが、それでも彼女の声をクローンして、この文を話させることができるんです。かなり印象的ですね。
ほな、悲しいバージョンを聞いてみましょう。
「I was like, talking to my friend and she's all, um, excited about her, uh, trip to Europe and I'm just like, so jealous, right?」
悪くないですね。
最後に、恐怖の声があります。元の音声はこんな感じです。
「Kids are talking by the door.」
ほな、この声でテキストを読ませてみましょう。
「I was like, talking to my friend and she's all, um, excited about her, uh, trip to Europe and I'm just like, so jealous, right?」
元のクリップの高めのピッチと、少し怯えた声を再現できてるのが分かりますね。
非常にパワフルなツールですね。
最後に、難しい文章でもうまく機能することが示されています。例えば、こんな文章です。私が読んでみますね。
「Active artists always appreciate artistic achievements and applaud awesome artworks.」
ああ、なんて口を噛みそうな文章でしょう。
ほな、元の音声を聞いてみましょう。
「You need not think to keep out of the way of him.」
たった3秒の音声です。この声でスクリプトを読ませてみましょう。
「Active artists always appreciate artistic achievements and applaud awesome artworks.」
かなりええ感じですね。
もう一つ例を見てみましょう。
「After which in his preoccupied way, he explained.」
これが難しい文章です。彼女がうまく読めるか見てみましょう。
「Brave bakers boldly baked big batches of brownies in beautiful bakeries.」
はい、かなりええ感じですね。
最後にもう一つ例を聞いてみましょう。
「Became more deliberate and watchful.」
ほな、出力を聞いてみましょう。
「Daring dancers dazzled during dynamic dance displays, drawing delighted crowds.」
全体的に悪くないですね。
でも、デモはもう十分でしょう。実際に使ってみましょう。
デモページとGitHubページへのリンクは、動画の説明欄に載せておきます。
実際に試せる場所がいくつかあります。現在、CUDAのGPUで動作すると思います。少なくとも8GBのVRAMが必要です。もしそれがない場合は、これらのオンラインスペースを使うこともできます。例えば、ここにHugging Faceのスペースがあります。ローカル版と同じことができます。
この動画では、ローカルにインストールする方法もお見せしますね。
実際にこのインターフェースをコンピューターにセットアップしてみましょう。ちなみに、私はDell Precision 5690を使ってます。これには強力なRTX 5000 Adaを搭載できるんです。AIツールをローカルで動かすには最高の組み合わせですね。DellとNVIDIAのスポンサーシップに大感謝です。
ほな、インストールして、ローカルで動かす方法を説明しましょう。
GitHubページに行くと、ページの真ん中にインストール方法が載ってます。リンクは説明欄に載せておきますね。
まず、リポジトリをクローンする必要があります。そのためには、コンピューターにGitがインストールされてる必要があります。
Gitのインストール方法はこちらです。すでにGitをインストールしてる場合は、次のセクションまでスキップしてください。
やることは、使ってるOSに合わせて最新リリースをダウンロードするだけです。私はWindowsを使ってるので、Windows用のダウンロードをクリックします。64ビットを使ってるので、これをクリックしてダウンロードします。
exeファイルをダウンロードしてるところです。ダウンロードが終わったら、exeファイルを開いて、手順に従うだけです。
ほな、exeファイルを開いて、nextをクリックします。デフォルトのインストール場所を使います。Program Files/Gitですね。nextをクリックして、ここでもnextをクリックします。
すべてデフォルト設定のままで、nextをクリックしていきます。たくさん設定があるので、すべてnextをクリックしていきます。
そしたら、すべてのファイルがインストールされます。数分かかるかもしれません。
よし、これでGitがインストールできました。
コンピューターにGitがインストールされてるとして、まずインストールしたい場所に移動します。私の場合はデスクトップにインストールしますね。
上のバーにCMDと入力します。これで、現在のフォルダーがデスクトップのコマンドプロンプトが開きます。
これを開いて、最初の行をコピーして、ここに貼り付けます。
これは基本的に、このリポジトリをデスクトップ上のフォルダーにクローンしてるんです。
デスクトップを開くと、F5 TTSフォルダーができてるのが分かりますね。開いてみると、このリポジトリにあるすべてのファイルがクローンされてるのが分かります。
次のステップは、このフォルダーにディレクトリを変更することです。今はまだデスクトップにいるので、1つフォルダーに入って、今作ったF5 TTSフォルダーに移動する必要があります。
はい、これでF5 TTSフォルダーにいます。こんな感じのはずです。
次のステップは、これらのコードを実行する前に、仮想環境を作成することです。
これは基本的に、このツールが使うすべてのパッケージと依存関係を含む環境です。コンピューター上の他のツールとは別の環境です。
これは重要です。なぜなら、このツールは、コンピューター上の他のツールと競合する可能性のある、異なるバージョンのパッケージや依存関係を使う可能性があるからです。
別の仮想環境を作成して、そこにすべてをインストールしたいんです。
この別の仮想環境を作成するには、Anacondaを使う必要があります。Anacondaがインストールされてない場合は、こちらがインストール方法です。すでにある場合は、次のセクションまでスキップしてください。
anaconda.comにアクセスして、実際にminicondaをインストールします。これはAnacondaの最小バージョンです。
フルのAnacondaをインストールすると、必要ない可能性のある多くのパッケージと依存関係がインストールされます。これはコンピューターの容量をより多く占有し、もちろんインストール時間も長くなります。
でも、minicondaなら、基本的なパッケージだけです。追加のパッケージや依存関係は後からいつでもインストールできます。
ほな、「Latest Miniconda Installer Links by Python Version」をクリックします。Windowsを使ってるので、これらのうちの1つをインストールしますね。
通常、フリーでオープンソースのAIツールはPython 3.12をサポートしてないので、Python 3.11バージョンをインストールする方がええでしょう。これをクリックすると、exeファイルがコンピューターにダウンロードされます。
ダウンロードが終わったら、ダブルクリックして、インストールを完了するための手順に従うだけです。
nextをクリックして、agreeをクリックします。これをAll usersに設定しましょう。デフォルトのインストール先フォルダーを使います。これもチェックしましょう。「Clear the package cache upon completion」です。機能に影響を与えずにディスク容量を節約できます。
完了したらnextをクリックして、finishです。
でも、まだ終わってません。コマンドプロンプトを開いて「conda --version」と入力しても、condaが認識されてないのが分かります。これは、まだAnacondaをパスに追加してないからです。
これを閉じて、パスに追加するには、「Edit the system environment variables」という機能を検索します。これをクリックして、「Environment Variables」をクリックします。
「Path」と書かれてるのをクリックして、editをクリックします。ここにAnacondaのパスを追加します。
Anacondaをどこにインストールしたかによって異なります。私の場合はProgram Dataにインストールしたので、Program Data/Minicondaになります。
scriptsをダブルクリックすると、condaがここにあるのが分かります。これが貼り付けたいフォルダーです。
右クリックして「Copy as path」をクリックします。環境変数ウィンドウに戻って、newをクリックし、パスを貼り付けます。ただし、引用符は外してください。
OKをクリックして、もう一度OKをクリックします。
新しいコマンドプロンプトを開いて「conda --version」と入力すると、24.1.2が動いてるのが分かります。これで、Anacondaが正常にインストールされたことが確認できました。
Anacondaがインストールされたとして、このF5 TTSフォルダーに入ったら、上部で再びCMDと入力して、このフォルダー内でコマンドプロンプトを開きます。
「conda create -n」と入力します。これは新しい環境を作成するように指示してます。これをF5と呼びましょう。そして、Pythonのバージョンを3.10に設定します。これは、ここで指定されてるPythonバージョンです。
Python 3.11や3.12など、より新しいバージョンで動作するかどうかは分かりませんので、GitHubで指定されてるPythonバージョンを常に使うのが安全です。
この場合、3.10と入力してエンターを押します。
そしたら、この仮想環境を作成し始めます。Python 3.10に基づいてます。
続行するにはエンターを押します。すべてをインストールするのに時間がかかります。
完了したら、これら2行が表示されるはずです。
次に、さらに進む前に環境をアクティベートする必要があります。「conda activate」と入力し、環境の名前を入力します。この場合はF5です。
環境がアクティベートされたのが分かります。各行の前に括弧内に環境名が表示されてるからです。
次のステップは、CUDAバージョンに基づいてtorchとtorchaudioをインストールすることです。これは非常に重要です。
少なくとも、この録画時点ではCUDA GPUが必要です。
CUDAバージョンを確認するには、コマンドプロンプトを開いて、「nvcc --version」と入力するだけです。
CUDA 11.8を使ってるのが分かりますね。
これを閉じて、このURLの最後にあるCU1118は、これを意味してます。
11.8を使ってない場合、12.1を使ってる場合は、ここと
ここにある118を121に変更する必要があります。
でも、私たちはCUDA 11.8を使ってるので、この2行をコピーして、ここに貼り付けます。
最初の行はtorchをインストールしてます。2.7GBあるので、時間がかかります。
ビデオを一時停止して、終わったら戻ってきます。
はい、torchのインストールが正常に完了しました。次に、torchaudioをインストールする必要があります。これは貼り付けた2行目です。
ここでエンターを押すだけです。
よし、torchとtorchaudioの両方を正常にインストールできました。
次のステップは、requirements.txtにあるすべての要件をインストールすることです。このファイルにリストアップされてます。
これらの依存関係をすべてインストールする必要があります。
ここに戻って、この行をコピーして、ここに貼り付けます。
依存関係のリストが長いので、インターネット接続の速度によっては時間がかかる場合があります。
すべてうまくいけば、エラーなしでこれらすべてが表示されるはずです。これは、すべての要件をインストールしたことを示してます。
ほな、実際にこのインターフェースを実行しましょう。
このコード行をコピーして、ここに貼り付けます。
これが初めてgradioインターフェースを実行する場合、追加のモデルがダウンロードされます。
例えば、このmodel.safetensorファイルは約1.6GBあります。ダウンロードに時間がかかるでしょう。
すべてうまくいけば、このリンクが表示されるはずです。Ctrlキーを押しながらこのリンクをクリックすると、ブラウザで開きます。
これは完全にオフラインです。ブラウザで開きますが、これはただのgradioインターフェースで、実行にインターネットは必要ありません。
これがインストールして実行する方法です。
このビデオのスポンサーであるWondershare Filmora
に感謝します。Filmoraは、AI機能を搭載したビデオエディターです。私は全てのYouTube動画にFilmoraを使ってます。
バージョン14が出たばかりで、AIの超パワーが満載です。
AI Co-pilotの編集機能を使えば、チャットボットのように話しかけるだけで動画を編集できます。
Smart Short Clipという機能もあります。これは長尺の動画を自動的にソーシャルメディア用のショートクリップに変換してくれます。
AI Audio Enhancerもあります。AIを使って、ボタン一つでオーディオをスタジオクオリティに変換します。
「Hey everyone, welcome back to my channel.」
「Hey everyone, welcome back to my channel.」
新しいAI Sound Effect機能もあります。単一のプロンプトで、任意の効果音を作成できます。
AIを使って簡単に音声からボーカルを除去したり、ノイズを除去したりすることもできます。
音声をテキストに変換する機能もあるので、字幕を簡単に作成できます。テキストを音声に変換する機能もあるので、ナレーションも簡単に作れます。
AI Smart MaskingとAI Smart Cutoutもあります。これを使えば、数秒で動画から物体を削除したり、背景を変更したりできます。
公開も簡単です。AI Thumbnail Creatorを使えば数秒でサムネイルを作成できます。
AI Copywriting機能を使えば、タイトルやキャプションも簡単に作成できます。
Wondershare Filmora 14でプロのように動画を編集し、大量の時間を節約しましょう。
説明欄のリンクから無料で試せます。
さて、実行できたら、参考音声として使用する音声ファイルをアップロードするだけです。
サンプルクリップをアップロードしますね。聞いてみましょう。
「This indie film festival looks fascinating. Shall we go and broaden our cinematic horizons?」
サンプルテキストを入力しましょう。「Hi there」などです。
「Synthesize」をクリックしても、おそらくまだ動作しません。
エラーが表示されましたね。コマンドプロンプトを開くと、「ffmpeg was not found」と表示されてます。
これは、まだコンピューターにffmpegがインストールされてないということです。
ほな、ffmpegを一からインストールする方法をお見せしましょう。
まず、Gyan.devというページに行く必要があります。このページの色がすごく変わってて、かなり彩度が低くなってますが、気にせんといてください。
このページで「FFmpeg Get Full」をクリックします。好きな場所にインストールできますが、Cドライブに解凍しましょう。
このフォルダーを選択して、Cドライブに解凍します。OKを押して、これを閉じます。
今、Cドライブにこの「ffmpeg」フォルダーが見えるはずです。開くと、これらのファイルが含まれてるはずです。
1つ前のフォルダーに戻って、これを単に「ffmpeg」に名前変更しましょう。短い名前の方がええですからね。
次のステップは、これを環境変数に追加する必要があります。
Windowsの検索バーで「Edit the system environment variables」を検索します。これを開いて、「Environment Variables」をクリックします。
システム変数の中で下にスクロールして、「Path」を見つけます。「Path」をクリックして、「Edit」をクリックします。
「New」をクリックした後、この「ffmpeg」を開いて、この「bin」フォルダーのパスをコピーします。
右クリックして「Copy as path」をクリックします。
環境変数ウィンドウに戻って、「New」をクリックし、引用符なしでパスを貼り付けます。
OKをクリックして終了し、もう一度OKをクリックします。
インストールされたことを確認するには、新しいコマンドプロンプトを開いて「ffmpeg --version」と入力します。
これが表示されれば、環境変数に正しく追加されたということです。
最後に、gradioに戻りましょう。まずこれを閉じて、後で再起動する必要があります。
F5 TTSフォルダーに戻って、上部で再びCMDと入力して、このフォルダー内でコマンドプロンプトを開きます。
まず、「conda activate」と入力し、F5という名前の仮想環境をアクティベートします。
それが終わったら、「pip install ffmpeg」と入力して、ffmpegをインストールします。
インストールが終わったら、「ffmpeg-python」もインストールする必要があります。
これらのインストールが終わったら、すべて準備完了です。
すべてを再起動する必要があります。そのためには、F5 TTSフォルダーを開いて、上部でCMDと入力します。これで、選択したフォルダー内でコマンドプロンプトが再び開きます。
まず、condaを使って仮想環境をアクティベートする必要があります。F5という名前をつけましたね。
エンターを押すと、すべての行が括弧内にF5で始まるのが分かります。これは、この仮想環境内にいることを意味します。
次のステップは、基本的にgradioインターフェースを開くことです。
Pythonを使ってこの「gradio_app.py」ファイルを開く必要があります。「python gradio_app.py」と入力します。
すべてのモデルを既に初めてコードを実行したときにインストールしたので、今回はずっと早くなります。
よし、このリンクをCtrlを押しながらクリックして、gradioインターフェースを開きましょう。
ここにオーディオをドロップしましょう。ドロップするオーディオは15秒未満である必要があります。理想的には、wave形式であるべきです。
mp3を試すこともできますが、私はwave形式を使うのを好みます。品質が良いからです。
参考オーディオが15秒を超える場合、自動的に15秒に切り取られます。
これは実際に革命的なことです。RVCのような以前のツールは、声を訓練するのに少なくとも数分のオーディオが必要でしたが、ここではわずか数秒のオーディオで声をクローンできるからです。これはかなりクレイジーですね。
ほな、このアメリカ人女性の8秒のクリップを使います。聞いてみましょう。
「Hi there! Need a smart, confident, friendly young adult voice? I'm ready and willing, so let's get started and get your audience absolutely hooked!」
生成するテキストは、ChatGPTで生成したこの行を貼り付けます。
まずF5を選択します。後でE2も見せますが、まずはF5を使いましょう。
そして、「Synthesize」をクリックします。
オーディオだけを扱ってるので、実際にかなり速いです。高性能なハードウェアは必要ありません。おそらく8GBのVRAMがあれば動作させることができます。
30秒ほどで生成できたのが分かりますね。聞いてみましょう。
「You know, it's funny how we spend so much time trying to predict the future. I mean, look at me right now. I came here thinking I'd find clarity among the rustling leaves and chirping birds. Instead, I'm struck by this overwhelming sense of uncertainty. And that's okay, isn't it? There's a certain beauty in not knowing what comes next.」
かなりええ感じですね。スペクトログラムも表示されてます。ダウンロードするには、このボタンをクリックします。
ここでは、今日紹介しているAIであるF5 TTSか、MicrosoftのE2 TTSのどちらかを選べます。
このより新しいF5は、E2に比べて大きな改善がいくつかあります。
理論的には、F5の方が品質が良いです。アーティファクトが少なく、声をより正確にクローンすると言われてます。
でも、両方を試して、どちらが好みか見てみるのもええでしょう。
今E2を使ってます。「Synthesize」をクリックして、違いを聞いてみましょう。
ここの時間を見てください。今19、20、21秒くらいです。これはかなり速いですね。
そうですね、20数秒ほどかかりました。どんな感じか聞いてみましょう。
「You know, it's funny how we spend so much time trying to predict the future. I mean, look at me right now. I came here thinking I'd find clarity among the rustling leaves and chirping birds. Instead, I'm struck by the overwhelming sense of uncertainty. And that's okay, isn't it? There's a certain beauty in not knowing what comes next.」
E2では、声が少し機械的で不自然に聞こえますが、その違いはかなり微妙です。
両方のAIモデルにとても感心しました。たった8秒のサンプル音声から声をクローンして、20秒で生成できるなんて、すごいですね。
ほな、これをダウンロードして、F5に戻りましょう。
いくつか高度な設定があります。それも見てみましょう。
ここに参考テキスト、つまりこの音声クリップの書き起こしがあります。これを再生してみましょう。
「Hi there! Need a smart, confident, friendly young adult voice?」
例えば、これが彼女の言ってることなら、ここに書き起こしを入力できます。「Hi there! Need a smart...」などと続けます。
書き起こしをすでに知ってる場合、ここに貼り付けると時間の節約になります。自動で書き起こしを生成する必要がなくなり、より正確になります。
でも、通常は書き起こしを持ってないので、空白のままにしておきます。自動でこの音声サンプルを書き起こしてくれます。
ここにはサイレンスを削除するトグルもあります。これは生成時の無音部分を削除するのに役立ちます。
これをオフにしておきましょう。
速度については、実際にオーディオの速度を調整できます。
超スローにしてみましょう。0.5倍速にして、「Synthesize」をクリックして、どんな感じか聞いてみましょう。
ここで、参考テキストが提供されてないので、自動的に参考音声を書き起こしてるのが分かります。これを空白にしたからです。
今25、26、27、29秒くらいですね。
このオーディオにはかなり多くのポーズがあるのが分かります。このボックスのチェックを外したからです。
また、速度を半分に落としたので、35秒と長くなってます。
これを折りたたんで、テキストに従って聞いてみましょう。再生します。
「You know, it's funny how we spend so much time trying to predict the future. I mean, looking here th- me right now. I came- king I'd find clarity and- among the rustling leaves- instead by the suck- BD isn't- isn't it? There's a- okay, there's a certain beauty and not knowing me- what comes next- instead I'm- nting leaves and chirping birds and- certainty.」
明らかにひどい生成結果でしたね。おそらくこれをオフにしたことと、半分の速度にしたことが原因で、かなり混乱してます。
ほな、これを元に戻して、今度は半分の速度ではなく、2倍速で話させてみましょう。「Synthesize」をクリックして、どんな結果になるか見てみましょう。
このボックスにチェックを入れたので、このクリップにはポーズや無音の瞬間が比較的少ないのが分かります。
再びこれを折りたたんで、テキストに従って聞いてみましょう。再生します。
「You know, it's funny how we spent time trying to predict the future. I mean, look at me right now. I came here thinking I'd find clarity on the rustling leaves and chirping birds. Instead, I'm struck by this overwhelming sense of uncertain- that's okay, it- there's a certain beauty knowing what comes next.」
確かに超速いですね。
はい、速度を調整したり、音声内のポーズの量を調整したりできます。これはすべて、たった8秒の参考音声からできるんです。すごく印象的ですね。
次に、速度を1倍に戻して、別の声をテストしてみましょう。
この声を削除して、男性の声をアップロードします。これはたった5秒の音声です。聞いてみましょう。
「I expect nothing but excellence from this team. Let's set the bar high and exceed it.」
はい、そして前と同じスクリプトで、「Synthesize」をクリックしてみましょう。
これが結果です。
「You know, it's funny how we spend so much time trying to predict the future. I mean, look at me right now. I came here thinking I'd find clarity among the rustling leaves and chirping birds. Instead, I'm struck by this overwhelming sense of uncertainty. And that's how- okay, isn't it? There's a certain beauty in not knowing what comes next.」
どれだけリアルに聞こえるでしょうか。本当に、誰かの声の5秒だけで、その声をクローンして好きなことを言わせられるなんて、驚きが止まりません。なんて狂った時代に生きてるんでしょうね。
さて、動画の冒頭で見せた声に感情を加えることについて、気になってるかもしれませんね。
ここに「Multistyle」というタブがあります。ここで、異なる感情を持つ誰かの声のサンプルをいくつか追加できます。そして、感情をコントロールしながら、好きなことを話させることができます。
使い方をお見せしましょう。
まず、誰かの声のサンプルをいくつかアップロードします。
デフォルトのものは「regular」と呼ばれてます。これは必須です。
ここでは、幸せな普通の声をアップロードしてます。聞いてみましょう。
「When people are happy, usually their voices go up a little in pitch. Even if you're just using your own voice, and you may even talk a little faster. But this is still no faster than my usual non-acting conversation speed. Pretty normal, neutral emotion.」
テキストには、ここに書き起こしを貼り付けるか、空白のままにして自動で書き起こしてもらえます。
私は空白のままにしておきます。
次に、この人の声の異なる感情のクリップをもっと追加する必要があります。
「Add speech type」をクリックして、指定したい感情を入力します。これは大文字小文字を区別するので、すべて小文字にしておきましょう。
別の音声をアップロードします。これは悲しい音声クリップです。聞いてみましょう。
「If you want to sound sad, try talking softly but clearly and slowly, with emphasis on every few words. For a truly emo heartbreak, or a bit more deadpan for a more subtle depressed sounding effect.」
本当に落ち込んだ声ですね。
もう1つ追加しましょう。今度は「angry」を追加します。
この人の怒った声のサンプルをアップロードします。聞いてみましょう。
「On the other hand, when someone gets angry, their voice tends to lower in pitch as well as getting somewhat louder, but not necessarily yelling. Just project.」
はい、これで3つの感情ができました。幸せ、悲しい、怒り。もっと追加することもできますが、この3つでいきましょう。
下の方に、生成するテキストがあります。ChatGPTで生成したランダムなテキストを貼り付けます。
各行の前に括弧内で感情が書かれてるのに注目してください。
この「regular」は、デフォルトのこの「regular」の感情を指してます。これは幸せな中立的な声です。
この「sad」は、この悲しい声を指してます。この行を、この悲しい声で読もうとします。
最後に、この行を怒った声で読もうとします。ここで設定した「angry」の声ですね。
F5かE2を選べます。F5の方が品質が少し高いので、こっちを使いましょう。
詳細設定では、無音部分を削除するオプションもあります。これはオンにしておきましょう。
これでOKです。「Generate Emotional Speech」をクリックしてみましょう。
ここに「No reference text provided, transcribing reference audio」と表示されてますね。これらの音声サンプルの書き起こしを追加する必要はありません。自動で書き起こしてくれます。
タイマーを見てください。36、37、38...38、39秒くらいかかりましたね。かなり速いです。
これを折りたたんで、テキストを見ながら聞いてみましょう。再生して、これらの異なる感情でこのテキストをどう読むか聞いてみましょう。
「I can hardly believe it. We finally won the championships! But then I... I remember it's bittersweet without Dad here to celebrate with us. Why did he have to leave so suddenly? It's just not fair!」
完璧ですね。悲しい部分では、アップロードした音声にとても似た悲しい声で読んでるのが分かります。怒った声も同じです。
別の例も試してみましょう。これらを消して、男性の声をアップロードしましょう。
これが幸せな中立的な声です。聞いてみましょう。
「Can we just get on with it already? My body's starting to take a toll.」
これは幸せな声だと思います。くすぐられてるような感じですね。
次は悲しい声です。聞いてみましょう。
「Can we just get on with it already? My body is starting to take a toll.」
次は「scared」(怖がった)を追加して、この男性の怖がった音声サンプルをアップロードします。聞いてみましょう。
「Hey, can we get on with this already? My bud's starting to take a toll.」
4つ目を追加しましょう。「tired」(疲れた)です。この音声をアップロードして聞いてみましょう。
「Can we get on with it already? My body's starting to take a toll.」
生成するテキストに、これら4つの感情をすべて含むスクリプトを貼り付けます。「regular」、「sad」、「scared」、「tired」です。
F5を選んで、「Generate」をクリックしましょう。
これが結果です。
「I finally finished my novel, and I can't wait to share it with everyone! But as I look at the empty chair where my writing partner used to sit, I feel a pang of loss. What if no one likes it? What if all this effort was for nothing? After countless late nights, I'm exhausted, but I know it's worth it to chase my dreams.」
これ、すごくないですか?たった数秒の誰かの声のサンプルで、これらの感情を完全に再現できてるんです。これは本当に強力なツールですね。
まず、これを保存しましょう。
もっとすごいものをお見せしましょう。これは「Podcast」機能です。
ここに「Podcast」というタブがあります。ここでは、ポッドキャストのホストとして2人の異なる話者を入力できます。
例えば、話者1をBobと呼びましょう。これは最も一般的な名前ですね。
参考音声には、先ほどの男性の声を使いましょう。聞いてみてください。
「I expect nothing but excellence from this team. Let's set the bar high and exceed it.」
参考テキストは基本的にこの音声サンプルの書き起こしです。これも空白のままにしておけば、自動で書き起こしてくれます。
話者2の名前をAnnaとしましょう。先ほど使った女性の声をアップロードします。聞いてみてください。
「Hi there! Need a smart, confident, friendly young adult voice? I'm ready and willing, so let's get started and get your audience absolutely hooked!」
参考テキストは、やはりこの音声サンプルの書き起こしです。これも空白のままにしておきましょう。
ポッドキャストのスクリプトには、一般的なものを貼り付けます。
これの仕組みは、基本的に各行の前に話者の名前を付けるだけです。この場合、Bobがこの行を読み、Annaがこの行を読み、というように続きます。とてもシンプルですね。
ここにも設定があります。F5かE2を選べ、無音部分を削除するオプションもあります。
「Generate Podcast」をクリックして、どんな結果になるか見てみましょう。
これが結果です。
「Bob: Welcome back to the show, everyone! I just got back from an amazing trip and I'm feeling so happy!
Anna: That's great, Bob, but I have to admit, I'm feeling a bit sad today. I missed out on the fun.
Bob: I totally get that, Anna. It's scary to think about missing out on experiences, right?
Anna: And honestly, I'm just tired of feeling this way.
Bob: Let's dive into today's topic and shake off those blues!」
悪くないですね。もう少し限界を試してみましょう。
British(イギリス)アクセントも生成できるか試してみましょう。
これを消して、Bobにイギリス人の声をアップロードしましょう。イギリス人男性の声がここにあります。聞いてみましょう。
「There is an art, The Hitchhiker's Guide says, or rather, a knack to flying. It lies in learning how to throw yourself at the ground and miss.」
女性の声も同じく、イギリス人の声をアップロードします。こんな感じです。
「Hello, this voiceover is an AI replicate of professional voiceovers used in corporate explainer and training videos.」
はい、2つのイギリス人の声です。
同じポッドキャストのスクリプトを使います。設定はすべて同じにして、「Generate」をクリックして、どんな結果になるか見てみましょう。
再生してみましょう。
「Bob: Welcome back to the show, everyone! I just got back from an amazing trip and I'm feeling so happy!
Anna: That's great, Bob, but I have to admit, I'm feeling a bit sad today. I missed out on the fun.
Bob: I totally get that, Anna. It's scary to think about missing out on experiences, right?
Anna: And honestly, I'm just tired of feeling this way.
Bob: Let's dive into today's topic and shake off those blues!」
かなりええ感じですね。イギリスのアクセントもできますし、基本的に音声クリップにあるどんなアクセントでも生成に反映できます。すごいですね。
最後に、いくつかの制限について説明しましょう。
現在、これは英語と中国語、またはその2つの言語の混合のみを扱えることに注意してください。
単純なテキスト読み上げタブに戻りましょう。
これを消して、新しい声をアップロードします。これをもう一度使いましょう。
「Hi there! Need a smart, confident, friendly young adult voice? I'm ready and willing, so let's get started and get your audience absolutely hooked!」
テキストに中国語を入力して、彼女が読めるか見てみましょう。
「Synthesize」をクリックします。
再生して、うまくいくか見てみましょう。
完璧ですね。アメリカ英語の声でも、
「Hi there! Need a smart, confident, friendly young adult voice?」
このような声で、中国語を話させることができるんです。すごいですね。
繰り返しますが、これは中国語でのみ機能します。
次に、スペイン語のテキストを貼り付けて、正しく言えるか見てみましょう。
どんな結果になるか聞いてみましょう。
「Int del conr in cast erina in picnico.」
笑っちゃいますね。まったくスペイン語になってません。ただのアメリカ人が文字通り読んでるだけです。
スペイン語を話す視聴者の皆さん、耳を傷つけてしまってごめんなさい。
日本語も試してみましょう。これも機能しないと思います。現在は英語と中国語のみをサポートしてるからです。
再生してみましょう。
「リブ...」
はい、これは完全にひどいですね。実際に日本語を話してません。
これが制限ですが、それ以外は非常に強力なツールです。
これを使って、ここに全文を貼り付けるだけでポッドキャストを生成できます。2人のホストでポッドキャストを生成してくれます。
または、1つの声の複数の感情をアップロードして、ここで感情を指定することもできます。
非常に強力で多用途なツールですね。
以上で、F5 TTSに関する私の動画は終わりです。
コメント欄で、これについてどう思うか教えてください。他にどんな面白いものを生成できたでしょうか。
ローカルでのインストールに問題がある場合も、コメント欄で教えてください。できる限りトラブルシューティングをお手伝いします。
いつも通り、トップAIニュースやツールを見つけて皆さんと共有していきます。
この動画を楽しんでいただけたなら、いいね、シェア、購読をお忘れなく。今後のコンテンツもお楽しみに。
AIの世界では毎週本当にたくさんのことが起こってるので、YouTubeチャンネルだけではすべてをカバーできません。
AIで起こってるすべてのことを本当に把握するには、私の無料の週刊ニュースレターを購読してください。リンクは説明欄にあります。
視聴ありがとうございました。次回の動画でお会いしましょう。