GoogleはSoundstormという新しい製品を発表しました。このソフトウェアは、ハイパーリアリスティックな音声を生成することができます。ソフトウェアはたった3秒の録音から任意の声を複製し、0.5秒で30秒の音声を生成することができます。この技術は素晴らしいものですが、ディープフェイクやなりすましといった潜在的なリスクや悪用の懸念があります。Googleはそのリスクを認識していますが、それに対処するための十分な対策を取っていません。政府の介入が望まれています。この論文では、対話合成やプロンプト/非プロンプト生成についても議論されています。Soundstormは有望なものですが、まだ微調整が必要です。このソフトウェアにはGoogleアシスタントの強化を含むさまざまな応用の可能性があります。ただし、この技術の影響や潜在的な悪用について考慮する必要があります。
公開日:2023年6月26日
※動画を再生してから読むのがオススメです。
グーグルは最近の論文で、この新製品の潜在的なリスクに焦点を当てながらも、多くのオブザーバーの注目を集め始めたものを再び発表した。
Googleからは、この新製品「Soundstorm」による本当に素晴らしいものがあり、このビデオではこの製品のキーの詳細を強調するために焦点を当てます。
おお、興味深い!
ええ、ええ、これはSoundstormで生成されたようなものです。
待って、何?
これがリリースされると、誰もがどちらかの方法で影響を受ける可能性があるので、本当に皆さんに注目してほしいです。
そして、これが何なのかというと、ここしばらくで出会った中で最もリアルなナレーションなのだ。
そして、最近の傾向として、グーグルはこの技術が使用される可能性のあるかなり恐ろしいことを指摘しているが、これらのリスクを軽減するための対策はまだ見られない。
しかし、サム・アルトマンがすでに議会に提案したように、事態が手に負えなくなる前に、政府がすぐに介入してくれることを切に願う。
サウンドストームは、すでに指摘されているように、超リアルなナレーションを提供している。
つまり、本物の人間のスピーチから生まれる息継ぎが聞こえてきそうなほどで、人間のスピーチから生まれる流暢さを実現できている。
Siriや通常のGoogleのナレーションから得られるようなロボット的なパフォーマンスはここでは排除されている。
このビデオでは、グーグルが発表した論文に掲載されたデモ音声のいくつかを再生しますが、クレイジーなのは、サウンドストームがたった3秒の録音からどんな声でもクローンできるということです。
これは本当に正気の沙汰ではありません。
これはすごいことだと思うかもしれませんが、AIによって超リアルな偽物が作られることで、何が本物で何が偽物なのかを見分けるのが本当に難しくなる時代が近づいているのです。
このビデオの後半で、このような技術がすでに本当に悪いことに使われていることを示すいくつかの事例を紹介します。
スクリーンに表示されているこの論文の抄録からわかるように、グーグルはこのモデルの機能の背後にある仕組みと効率性の概要を説明しています。
そして、このものの動作する速さは、単純に狂気じみています。抽象化のこのセクションで見るように、音声LMの自己回帰生成アプローチと比較して、私たちのモデルは同じ品質の音声とより高い一貫性を持ちながら、2桁高速です。
Soundstorm は、TPU V4 上で 30 秒の音声を 0.5 秒で生成します。
我々は、発話者の交代と発話者の声による短いプロンプトが注釈されたトランスクリプトが与えられた場合、高品質の自然な対話セグメントを合成することで、より長いシーケンスに音声生成を拡張する我々のモデルの能力を実証します。
30秒の音声を0.5秒で生成できることは、このソフトウェアが出す品質を考慮すると、かなり印象的である。
そしてこれは、このAIが通常の人間との対話を実行しても、誰も何も疑わないことを意味する。
万が一、あなたがこのことを十分に理解していない場合に備えて、ここにあるのはグーグルのデモクリップである。
聞いてください。
これは効率的な音声生成のための並列デコーダーで、対話の生成にも使えるんだ。
おお、面白い!
そうそう、これはサウンドストームが生成したんだ
待って、何?
言われなければ、間違いなく本物の人間の声と間違えてしまう。
この中に存在する人間の自然な話し方のトーンや抑揚は、まさに驚きだ。
そして、これが最終的にロールアウトされた暁には、膨大な数のアプリケーションが出てくるだろうし、間違いなく、すでにあるナレーションに大きな変化が見られるだろう。
このモデルがどのように動作するかをよりよく理解するために、グーグルが2022年に音声LMについて共有したビデオクリップをお見せしよう。
ああ、狼よ、我々はあなたのことをロード、レディと呼ぶ方法を知らない。
私たちは森の中で長く暮らしすぎた。
ここでわかるように、録音と録音の間にグレーの線が入っている。
最初の部分は基本的にAIに与えられたプロンプトであり、灰色の線の後に聞こえるのは、事前のトレーニングなしにAI自体が生成したものです。
これを聞いてみてください。約束しますが、これは本当に驚くべきものです。
私たちが人々の最初の印象を持つ場合、その9割は実際の事物の観察結果の単なる映像に過ぎませんが、それは何か違ったものの印象です。
この技術は、この新しい論文で私たちが進めているものであり、この論文には3つの非常に興味深い部分があり、最終的にソフトウェアがロールアウトしたときに私たちが期待することの全体像を示している。
その中には、ダイアログの合成、プロンプトと非プロンプトの生成、そしてベースラインが含まれています。
まず、ここで最初のデモを見てみましょう。対話合成の下にある最初のデモを見てみましょう。
ここからは、なぜこれが非常に印象的なのかを理解していただけるでしょう。
先ほどお見せした2022年のデモと同じように、ここには2つのセクションがあります。
ご覧の通り、ボイスプロンプトと合成されたダイアログです。
音声プロンプトは、3秒間のボイスプロンプトだけで、ダイアログ全体を作成することができます。
このボイスプロンプトを聞いてください。
そして、私たちはこれら2つの合成された対話を持っています。去年の夏、どこに行ったのですか?
ギリシャに行きました、素晴らしかったです。去年の夏はどこに行きましたか?
ギリシャに行ったよ、素晴らしかった!
ずっとギリシャに行きたかったんだ。どこが一番好きだった?
ええと、好きなところをひとつだけ選ぶのは難しいんだけど、そうだね、食べ物が本当に好きだった。
シーフードが特においしかった。
そうですね、そしてビーチは信じられないほど素晴らしかったです。
泳いだり、日光浴をしたり、島を探検したりして、たくさんの時間を過ごしたわ。
AIが2人の俳優の声のトーンやその他のディテールを、生成された残りの部分を通して保持できたのは、まさにクレイジーだ。
違いはほとんどわからない。
そして、このセクションのイントロダクションにあるように、以下のテキストとスピーカーはトレーニング中に見られなかったと書かれている。
つまり、合成された部分から聞こえてくるのは、AIがその場で生成したものだけなのです。
これによってGoogleアシスタントには印象的なアップデートが行われ、私たちが現在利用可能な大規模な言語モデルと組み合わせると、これが達成できることには限りがありません。
他の事例を聞いていると、通常のロボット的な発音パターンが干渉していることに気づくかもしれないが、それはほんの数秒のことだ。
今朝、私には本当に面白いことが起こりました。
おお、すごい、何?
今朝、本当に面白いことが起きたんだ。
おお、すごい、何?
まあ、いつものように起きて、朝食を食べに下に降りて、食べ始めたんだ。
それから10分後、気がついたら真夜中でした。
まさか、面白いね!
そして、この最初の合成音と2つ目の例は、2つ目の例ほど良く聞こえなかった。これを聞いて観察してほしい。
2つ目の方が1つ目より選べるということに同意してほしい。
そして私はGoogleがこれらの小さな問題をすぐに解決すると思います。まだ数ヶ月間、モデルは微調整される予定ですので。
そして、この論文の2番目の部分、つまり、プロンプトなしとプロンプトありの生成の部分に移ります。
ペーパー自体を読むと、話される明瞭性について言及しているセクションがあり、それが提示されたバージョンと提示されなかったバージョンの意味をよく説明しています。
プロンプトなしセットアップでは、メソッドは話者をランダムにサンプリングすることができ、プロンプトありセットアップでは、メソッドは、最初の3秒に対応するグランドトゥルースSoundstormトークンの形で提供される話者のアイデンティティを尊重する必要があります。
転写には、コンフォーマトランスデューサL ASRモデルを使用します。
つまり、基本的に、プロンプトのないバージョンでは、AIは話者の声という点で、元の音声に変更を加えることができますが、プロンプトのあるバージョンは、プロンプトをそのまま完全に反映することが期待されます。
これは、非常に深刻な被害を引き起こすために利用できる方法がたくさんあると思いますが、それについてはまた別のビデオでお話ししましょう。
さて、提示されなかったバージョンのカテゴリを聞くと、AIが異なる声を真似しているのが分かります。これを聞いてみてください。
メタクロス氏はこれまで一言も話していなかったが、彼の息子たちを横目で見ながら新入りを私に紹介した。その横目には挑戦的なものがあり、私が残念に思ったように、その横目は2人の若者によって彼らの側からも挑戦的に返された。
そして、プロンプトの部分でAIが元の声に切り替わるのを聞くことができる。
これらのサンプルを自分で試してみたい人のために、説明文にリンクを残しておこう。
そして3つ目のセクション、ベースラインでは、基本的にSoundstormのサンプルが、同様のタスクを実行するための他のAIツールと比較されています。
プロンプトのケースで音声を生成する場合、Soundstormの世代はオーディオLMよりも音響的な一貫性が高く、プロンプトから話者の声をよりよく保持します。
同じモデルのRVQレベル別貪欲デコードと比較して、Soundstormはより高品質な音声を生成する。
注意して聞いて、ここでの違いに注目してほしいです。
彼は慈愛と同時に厳しさを胸に降臨しなければならない。
彼は慈愛と同時に厳しさに満ちた心で降りなければならない。
彼は同時に、慈愛と厳しさに満ちた心で下らねばならない。
彼は、慈愛と厳しさを同時に胸一杯に抱いて下らねばならない。
そして、今お見せした説明の通り、サウンドストームは他のものより良いパフォーマンスを見せた。特に貪欲なサウンドは、まだあの響くようなロボットサウンドが多い。
全体的に、グーグルがここに持っているものはかなり堅実なものであり、我々はこれが完全に使用できるようになる時を楽しみにしている。
しかし、私たちがこのソフトウェアを使うことを楽しみにしているのと同じくらい、あらゆる角度から見て、これがうまくいかない可能性はいくらでもある。
しかし、あらゆるトレーニングデータとその限界についてのより徹底的な分析は、責任あるAIの原則に沿った今後の課題であろう。
一方、声を真似する能力には、生体認証をバイパスしたり、なりすましの目的で悪用される可能性があります。
そして、そのリスクはこの論文に書かれているものよりもはるかに高いことを私は保証する。
そして私は、これらの進歩が今度の選挙にどのような影響を与えるのか、非常に期待している。というのも、好むと好まざるとにかかわらず、AIの新たな発展が果たす役割は、私たちの生活のほとんどの側面に大きく広がっているからだ。
そして、このような深いフェイクを持つ可能性は、すべてを変える可能性がある。
グーグルは同じセクションで、これらのAIが生成したバージョンは専用の分類機によって追跡できると述べているが、これがうまくいくのは、法廷での証拠の検証やその他同様の状況といった、より正式なシナリオにおいてのみだと私は考えている。
しかし、これらの声のクローンツールが愛する人や友人の声をクローン化して人々を詐欺るという事例がありました。これらの状況では、身元を検証するためのテストを実行する余裕がない可能性があります。
今後、このような事例が増えることは間違いなく、このような問題にどのように取り組んでいくのか見てみたいと思っています。
これらの新製品の影響について、あなたはどうお考えですか?
コメントでお聞かせください。
私たちのチャンネルを購読して、次のビデオでお会いしましょう。
それではまた。