Text-to-Soundでどんな音でもつくりだすFugatto・Stable Diffusionの音声版

2024年11月27日 08:40

Fugattoは、Stability AIのStable Video DiffusionやOpenAIのSoraのような動画や画像を生成するモデルと同じと考えてほしい。
テキストと音声を入力として、音楽、声、サウンドを自由に作成することができる。
これまでに聞いたことのない音」を作り出せるAIオーディオジェネレーターだ。
NvidiaジェネレーティブAIの研究者が、テキストだけで音声出力をコントロールできる、音のためのスイスアーミーナイフを作った。
AIモデルの中には作曲や声の修正が可能なものもあるが、今回のように器用なものはない。

Text-to -Audio（TTA）

世界に存在しそうにない音を作成
音楽に合わせて吠える犬たち。
苦悶の叫びを上げる工場の機械
犬が吠える音で英語で「I need to know... who let the dogs out?
「I need to know; Who let the dogs out? 」と、バイオリンが歌う

Fugatto（Foundational Generative Audio Transformer Opus 1の略）と呼ばれるこのAIは、テキストとオーディオファイルを自由に組み合わせて、プロンプトで説明された音楽、声、音のミックスを生成したり変換したりする。

例えば、テキストプロンプトに基づいて音楽の断片を作成したり、既存の曲から楽器を削除したり追加したり、声のアクセントや感情を変えたりすることができる。

「マルチ・プラチナのプロデューサーでありソングライターでもあるIdo Zmishlany氏は、最先端のスタートアップ企業を対象としたNVIDIA InceptionプログラムのメンバーであるOne Take Audioの共同設立者である。

「音は私のインスピレーションです。音は私のインスピレーションです。スタジオで全く新しいサウンドを即座に創り出すことができるなんて、信じられない。」

人間のように音を理解するモデル

「私たちは、人間のように音を理解し、生成するモデルを作りたかったのです」と、NVIDIAの応用オーディオ研究マネージャーであり、Fugattoを支える十数人の一人であるラファエル・ヴァレは、オーケストラの指揮者であり作曲家でもある。

数多くのオーディオ生成および変換タスクをサポートするFugattoは、創発的特性（訓練された様々な能力の相互作用から生じる能力）と自由形式の命令を組み合わせる能力を示す、最初の基礎的な生成AIモデルである。

「Fugattoは、音声合成と変換における教師なしマルチタスク学習が、データとモデルのスケールから出現する未来に向けた第一歩です」とValle氏は語った。

音楽での使い道

音楽プロデューサーはFugattoを使って、曲のアイデアを素早く試作・編集し、さまざまなスタイル、声、楽器を試すことができる。
また、エフェクトを追加したり、既存のトラックの全体的な音質を向上させたりすることもできる。

「音楽の歴史はテクノロジーの歴史でもある。
エレキギターは世界にロックンロールをもたらした。
サンプラーが登場したとき、ヒップホップが誕生した。
AIによって、私たちは音楽の次の章を書いている。
私たちは新しい楽器を手に入れ、音楽を作るための新しいツールを手に入れた。

広告での使い道

広告代理店は、Fugattoを適用することで、複数の地域や状況に合わせて既存のキャンペーンを素早くターゲット化し、ナレーションに異なるアクセントや感情を適用することができる。

言語学習での使い道

言語学習ツールは、話し手が選んだどんな声でも使えるようにパーソナライズできる。家族や友人の声で話すオンラインコースを想像してみてください。

ビデオゲームでの使い道

ビデオゲーム開発者は、このモデルを使って、ユーザーがゲームをプレイするにつれて変化するアクションに合わせて、タイトル内の録音済みアセットを修正することができる。あるいは、テキストの指示やオプションの音声入力から、その場で新しいアセットを作成することもできます。

楽しい音を作る

「私たちが特に誇りに思っているモデルの機能のひとつに、アボカドチェアと呼んでいるものがあります。
例えば、Fugattoはトランペットの吠え声やサクソフォンの鳴き声を作ることができる。ユーザーが描写できるものは何でも、モデルが作り出すことができる。
微調整と少量の歌唱データにより、研究者たちは、テキストプロンプトから高品質の歌声を生成するような、事前に訓練されていないタスクを処理できることを発見した。

アーティスティックなコントロールが可能

Fugattoの新しさをさらに際立たせる機能がいくつかある。
推論中、モデルはComposableARTと呼ばれるテクニックを使い、トレーニング中に別々にしか見られなかった指示を組み合わせる。
例えば、プロンプトの組み合わせによって、フランス語のアクセントで悲しい気持ちで話すテキストを求めることができる。

このモデルの指示間の補間機能により、ユーザーはテキストの指示（この場合はアクセントの強弱や悲しみの度合い）を細かく制御できる。

このモデルを設計したAI研究者のローハン・バドラーニ氏は、「私は、ユーザーが主観的あるいは芸術的な方法で属性を組み合わせ、それぞれの属性をどの程度強調するかを選択できるようにしたかったのです」と語る。

「私のテストでは、結果はしばしば驚くべきもので、コンピューター科学者でありながら、少しアーティストのような気分にさせられました」と、スタンフォード大学でAIを中心としたコンピューターサイエンスの修士号を取得したバドラーニは語った。

このモデルは時間と共に変化する音も生成する。
例えば、雷鳴のクレッシェンドが徐々に遠くへ消えていくような、
地域を通過する暴風雨の音を作り出すことができる。
また、サウンドスケープがどのように変化していくかを細かくコントロールできる。

さらに、Fugattoは、トレーニングデータしか再現できない多くのモデルとは異なり、
雷雨が鳥のさえずりとともに夜明けを迎えるような、これまでに見たことのないサウンドスケープを作成することができます。

その原理は

Fugattoは、音声モデリング、音声ボコーディング、音声理解などの分野におけるチームの先行研究を基礎とする生成変換モデルです。

フルバージョンは25億のパラメータを使用し、32個のNVIDIA H100 Tensor Core GPUを搭載したNVIDIA DGXシステムのバンクで学習されました。

Fugattoは、インド、ブラジル、中国、ヨルダン、韓国など、世界中の多様な人々によって作られた。
彼らの協力により、Fugattoの多アクセント・多言語機能はより強力なものとなった。

この取り組みで最も困難だったことのひとつは、トレーニングに使用される数百万もの音声サンプルを含む混合データセットを生成することだった。

チームは多面的な戦略を採用し、モデルが実行可能なタスクの範囲を大幅に拡大するデータと指示を生成する一方、より正確なパフォーマンスを達成し、追加のデータを必要とせずに新しいタスクを可能にした。

また、既存のデータセットを精査し、データ間の新たな関係を明らかにした。全体的な作業は1年以上に及んだ。

ヴァレは、チームが何かをつかんだと確信した2つの瞬間を覚えている。
「初めてプロンプトから音楽が生成されたときは、度肝を抜かれました。

その後、チームはFugattoがプロンプトに反応し、ビートに合わせて犬が吠える電子音楽を作るデモを行った。

「グループが笑いに包まれたとき、本当に心が温まりました。

Fugattoをまとめると

Fugatto（Foundational Generative Audio Transformer Opus 1）
Nvidiaは、この技術をリリースする計画は発表していないが、音楽やエンターテインメントから翻訳サービスまで、幅広い産業に影響を与える可能性がある。

Fugattoが非常にエキサイティングなのは、テキストで音を出すよう促すことができる。
音声を合成するモデルや、音楽に効果音を加えるモデルなどがあるが、
Fugattoはすべてをこなす。
Fugattoは、Stability AIのStable Video DiffusionやOpenAIのSoraのような動画や画像を生成するモデルと同じと考えてほしい。
基本的な改良点は、言語を使って音声を合成できるようになったことで、
人々が素晴らしい音声を作成するために使えるツールに新たな展望が開ける、
Fugattoは創発的な特性を持つ最初の基礎モデルであり、訓練された要素を混合し、「自由形式の指示」に従うことができる。
このモデルは、標準的なワードプロンプトで音声を生成できるだけでなく、アップロードした音声ファイルを操作することもできる。
つまり、ある人物が話しているファイルがあれば、その人物の言葉を別の言語に翻訳しつつ、その人物の声のようにすることができる。
また、シンプルな曲をオーケストラの演奏のようにしたり、音楽に異なるビートを加えることもできる。
また、文書をアップロードして、モデルに好きな声で読ませることもできる。
さらに、感情のこもった声を出すようモデルに指示することもできる。
意気消沈した英語教師がエドガー・アレン・ポーを朗読する音声が欲しいですか？Fugattoならそれができる。

参考文献

fugatto.github.io
https://fugatto.github.io/
Fugatto 1 Foundational Generative Audio Transformer Opus 1
(PDFファイル)https://openreview.net/pdf?id=B2Fqu7Y2cd
https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/