見出し画像

stable-audio open x ComfyUI

上のサイトはComfyUIのブログですが、stable audio openに対応していると公表しています。
以下はstable audio openの論文です。

論文の要約


どんなもの? 
この論文では、Creative Commonsデータを用いてトレーニングされた、新しいオープンウェイトのテキストから音声への生成モデルについて説明しています。このモデルは、アーティストや研究者が自由に利用できるようにするために開発されており、44.1kHzの高品質なステレオ音声の生成が可能です。

先行研究と比べてどこがすごい?

多くの既存のテキストから音声へのモデルはプライベートであり、一般に公開されていないため、アーティストや研究者が利用できません。この研究のモデルは、Creative Commonsライセンスの音声データのみを使用してトレーニングされ、モデルの重みとコードが公開されている点が特筆すべきです。また、品質指標であるFDopenl3で高いパフォーマンスを示しており、リアルな音声生成が可能です。

技術や手法のキモはどこ?

このモデルは、3つの主要なコンポーネントから構成されています:

  1. オートエンコーダ:音声波形を圧縮し、扱いやすいシーケンス長に変換します。

  2. T5ベースのテキスト埋め込み:テキスト条件付けのために使用されます。

  3. トランスフォーマーベースの拡散モデル(DiT):オートエンコーダの潜在空間で動作します。

どうやって有効だと検証した?

モデルの有効性は、以下のような標準的な品質指標を用いて評価されました:

  • FDopenl3:生成された音声のリアリズムを測定

  • KLpasst:生成された音声と参照音声の意味的な一致を測定

  • CLAPscore:生成された音声がテキストプロンプトにどれだけ忠実であるかを測定

評価には、AudioCaps DatasetとSong Describer Datasetが使用されました。これらの評価において、提案されたモデルは競合する既存モデルと比較して優れたパフォーマンスを示しました。

議論はある?

このモデルには以下のような制限があります:

  • コネクタを含むプロンプトの生成:複数の音が含まれるプロンプトの生成が困難。

  • インテリジブルなスピーチ生成:話し言葉の生成ができない。

  • 音楽生成の限界:高品質な商業音楽はほとんど著作権があるため、限られた高品質な音楽データでしかトレーニングできなかった。

ということで、stable audio openは著作権がらみの問題が起きにくいツールということになります。

ComfyUIで使用する手順

①ComfyUI/models/clip/ディレクトリに「t5_base.safetensors」を配置します。


②ComfyUI/models/checkpoints/ディレクトリに「stable_audio_open_1.0.safetensors」を配置します。
本家だと認証が必要ですが、以下で同じものがダウンロード出来ます。

上のワークフローはブログのものをAnythingEverywhereで少し配置を変えたものです。Latentで秒数を設定し、プロンプトを入力するようです。サンプラーは何が良いか分かりませんが、ステップ数が50ですが、以下の10秒の生成だと2.57秒で終わります(PaperspaceのA4000)。

サンプラーについて
変更することで、生成される音楽が若干異なります(同じシード値でも)

CFGについて
変えることで、曲は変化しない

同じプロンプトでサンプラーにより異なる曲になりますので、比較用のワークフローも作成しました。

10秒ぐらいで全ての生成が終わるので4つ同時でもあまり気にならないかと。
自分の感覚に合う設定を選んで長尺にするというのもありかと感じました。

ちなみにprompt injectionなど追加してみましたが、変化はありませんでした。モデルの構造がSDXLと違うので当たり前かもしれませんが。。。。

どの様なプロンプトが効果的か分かりませんが、sunoのような感じで歌ってくれるものとは違う印象で、インストゥルメンタルが主体の印象です。


この記事が気に入ったらサポートをしてみませんか?