![見出し画像](https://assets.st-note.com/production/uploads/images/169503657/rectangle_large_type_2_07a7ffceaf500d0edd25ca13c0b4bedc.jpeg?width=1200)
イレブンラブズじゃない、この新しい最高のテキスト読み上げAIが無料!!!!
4,214 文字
主にテキスト読み上げの最高のモデルが商用利用可能になりました。最高の無料テキスト読み上げモデルが商用利用可能になりました。この新しいモデルはkokoro TTSと呼ばれ、このビデオではモデルの性能とその活用方法について探っていきます。
まず、このモデルはstyle TTSというとても人気のあるオープンソースのテキスト読み上げソリューションをベースに構築されています。もし初めての方でTTSが何かわからない場合、TTSはtext to speech(テキスト読み上げ)の略です。このモデルは例えばLLMと会話したり、LLMの発言を聞いたり、オーディオブックを読み上げたり、テキストをポッドキャストに変換したりするのに役立ちます。このようにTTSモデルは実世界で大きな影響力を持っています。
なぜこのモデルがオープンソースの最高モデルなのでしょうか。まず、このモデルはaphi 2.0ライセンスで提供されています。これは商用目的を含め、このモデルを使って何でも自由にできることを意味する真のオープンソースです。HuggingFaceのTTSアリーナリーダーボードでは、現在このモデルは4位です。Fish Speech V1.5とKokoの間で若干の順位の変動がありましたが、問題はFish Speechが商用利用できないモデルだということです。そのためKokoが商用利用可能な最高のモデルとなっています。上位5位の他のモデルはすべて商用利用を認めていません。
現時点で次に良いモデルはstyle TTS 2です。つまりこれが、セルフホストしてTTSソリューションとして利用できる、商用利用可能な最高のオープンソースモデルということになります。
このモデルの優れている点は、10種類のユニークな音声パックが付属していることと、ONNXバージョンが利用可能なことです。ONNXは、GPUに大きく依存することなくモデルをホストしたい場合に非常に役立ちます。多くのリアルタイムのユースケースで、WebRTCと組み合わせて実装したい場合などに、このモデルは非常に便利です。
モデルについての説明はここまでにして、これから2つのことを行います。1つ目はモデルの性能を確認すること、2つ目は他の既存のモデルと比較して性能を評価することです。
まず最初に「最高の無料TTSモデルが商用利用可能になりました」という文を試してみましょう。ここには多くの異なる音声があり、女性の声と男性の声が複数あります。現在は米国英語を選択していますが、イギリス英語、フランス語、日本語、韓国語、中国語など、異なる言語を選択することもできます。
それでは再生してみましょう...「最高の無料TTSモデルが商用利用可能になりました」かなり良いTTSですね。長文用のタブもあり、長い文章を生成したい場合に使えます。このビデオの後、数日以内に、ローカルでの実行方法についての動画を公開する予定です。GPUやクラウド環境で実行して、誰とも自分のデータを共有する必要がないようにする方法です。
最新のV.23バージョンで米国英語を聞いてみましたが、次にイギリス英語に切り替えてみましょう...「最高の無料TTSモデルが商用利用可能になりました」これもかなり良いですね。フランス語で何か言おうと思いますが、私がフランス語で知っているのは「ボンジュール」だけです。正しく発音できているかわかりませんが...なかなか良いですね。声にはフランス語特有の魅力があります。
次に、異なる感情レベルを持つ文章をいくつか試してみましょう。最初は幸せな文章で、モデルが声の幸せさを表現できるかどうかを見てみます。これが幸せな文章です:「わあ、わあ、これは人生で最高のサプライズだわ!」かなりフラットだと思います。表現力が豊かとは言えませんし、パラメータを変更するオプションもあまり見当たりません。プログラム的には変更できるかもしれません。
次に悲しい文章です:「信じられない...終わってしまったなんて。すべてが空っぽに感じる」正直に言って、声はとても良いです。人間らしい個性的なタッチが感じられます。
次は怒った声です:「こんな重要なことを忘れるなんて、許せない!」感情の表現力という点では、少なくともこのスペースにある生の形のTTSは最高とは言えません。表現力はあまり豊かではありませんが、それでも何かを読み上げる際には十分良い仕事をしていると思います。
では、業界のリーダーである11Labsとこのモデルを比較してみましょう。バトルモードに移って、11Labsとkokoro v19を選択します。v23はここにないようですが、v19で試してみましょう。子供向けのオーディオブックに変換したい場合などを想定して、ストーリーテリングを試してみましょう。
これがHuggingFaceのテキスト読み上げアリーナです。モデルを比較できます。まず11Labsから:「静かな村の、緑豊かな丘に囲まれた場所で、一人の少女が隠された小道を見つけました。その小道は、歩く動物や輝く木々のある魔法の世界へと続いていました」
次にkokoro:「静かな村の、緑豊かな丘に囲まれた場所で、一人の少女が隠された小道を見つけました。その小道は、話す動物や輝く木々のある魔法の世界へと続いていました」
正直に言って、目を閉じて聞いてみると、バイアスなしで、オープンソースだからというだけでなく、この場合は迷わずkokuroに投票したいと思います。
次は企業向けの指示的なテキストを試してみましょう。企業で働いていて、教材の一部を音声に変換したい場合を想定します。コーヒーの入れ方の説明書のような、とてもシンプルな文章です。
再び11Labsとkokoroで比較します。まず11Labs:「完璧なコーヒーを入れるには、まず新鮮な豆を粗い砂のような粒度に挽きます。水を沸騰直前まで熱し、ゆっくりと円を描くように粉の上から注ぎます」かなり良いですね。11Labsが依然としてトップにいる理由の一つがわかります。
次にkokoro:「完璧なコーヒーを入れるには、まず新鮮な豆を粗い砂のような粒度に挽きます。水を沸騰直前まで熱し、ゆっくりと円を描くように粉の上から注ぎます」正直に言って、これもかなり良いです。この場合、特に異なる意見はありません。どちらの文章も非常に良いTTSだと思います。
次は、ドラマチックな要素を含む文章を試してみましょう。kokoroのTTSはあまり感情的でないことは分かっていますが、試してみましょう。文章は嵐についてのものです。正直なところ、LAで大きな火事が起きている最中にこれを録音するのは気が引けます。もしLAからこれを見ている人がいれば、あまりいないと思いますが、米国にいる方は安全に気をつけてください。
11Labsを聞いてみましょう:「嵐は一晩中荒れ続け、稲妻が鋭い閃光で空を照らす中、船員たちは彼らを飲み込もうとする容赦ない波と戦っていた」良いですが、11Labsでもあまり感情は感じられません。
kokoroの番です:「嵐は一晩中荒れ続け、稲妻が鋭い閃光で空を照らす中、船員たちは彼らを飲み込もうとする容赦ない波と戦っていた」私はこの声に愛着があるのかもしれませんが、kokoroの方が良いと感じます。
TTSで最も重要なことの1つは、数字の扱い方、数字の読み方です。例えば、工場で数字を正確に読み上げるシステムを作りたい場合などを想定してください。空港でよく聞くようなアナウンスの文章を試してみましょう。両方のシステムがどのように数字を扱うか見てみましょう。
空港のアナウンスです:「ご搭乗の皆様、機長からのアナウンスです。現在の巡航高度は35,000フィートです」私はパイロットっぽく聞こえませんが、11Labsを聞いてみましょう:「ご搭乗の皆様、機長からのアナウンスです。現在の巡航高度は35,000フィートで、目的地には予定より早く到着する見込みです」
kokoroの番です:「ご搭乗の皆様、機長からのアナウンスです。現在の巡航高度は35,000フィートで、目的地には予定より早く到着する見込みです」素晴らしいですね。kokoroはこの場合、素晴らしい性能を見せています。どう感じられましたか?
もう1つ試してみましょう。注意を促すアナウンスで、「11時以前にご搭乗ください」という内容です:「ニューヨーク行き245便にご搭乗のお客様は、最終搭乗のため直ちに12番ゲートまでお進みください。これは最終案内です。11時以前にご搭乗ください」正直なところ、11Labsには「フライト245」ではなく「フライト2-4-5」と言ってほしかったです。整数や浮動小数点を求めているわけではなく、文字通り数字なのですから。これは私の感覚かもしれませんが。
kokoroを聞いてみましょう:「ニューヨーク行き245便にご搭乗のお客様は、最終搭乗のため直ちに12番ゲートまでお進みください。これは最終案内です。11時以前にご搭乗ください」両方のシステムが「245」と言いましたが、個人的に声に惹かれるものがあるのかもしれません。ホルモンの影響かもしれませんが、この場合もkokoroの方が良いと感じます。
今後数週間にわたってこの点に注目していきますが、これは堅実なモデルだと思います。TTSのユースケースを構築している場合、このモデルは安心して使えると思います。820億パラメータのモデルなので、モデルの重みを直接ダウンロードできます。重みは既に公開されており、チームの功績として、ONNXの重みも共有されているので、フォーマットの変換に悩む必要はありません。
数日以内に、自分のサーバーやコンピュータなど、さまざまな場所でこのモデルを使用する方法のチュートリアルを公開できる予定です。これは堅実なモデルだと思います。YouTubeの説明欄に、実際に試せるすべてのリンクを掲載します。
特に中国語、韓国語、日本語、フランス語のネイティブスピーカーの方は、このモデルについてどう感じられるか教えてください。個人的にはこのモデルにとても良い印象を持っています。hi gradという会社に感謝します。視聴ありがとうございました。ハッピープロンプティング。