
最近話題になった 音楽生成AI まとめ
最近話題になった「音楽生成AI」をまとめました。
1. AudioGen
テキストからオーディオを生成するAIモデルです。「風が吹く中で口笛をする音」や 「大勢の歓声の中で話す男性の声」といったテキストから、それらしい音を生成してくれます。
現在のところ、モデルやAPIは提供されていません。
We present “AudioGen: Textually Guided Audio Generation”!
— Felix Kreuk (@FelixKreuk) September 30, 2022
AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio).
📖 Paper: https://t.co/XKctRaShN1
🎵 Samples: https://t.co/e7vWmOUfva
💻 Code & models - soon!
(1/n) pic.twitter.com/UiJaA627bv
2. Mubert
テキストからBGMを生成するAPIです。テキストをタグに変換して、そのタグでBGMを生成する仕組みになっています。
Mubert-Text-to-Music 🎵🎵🎵
— AK (@_akhaliq) October 19, 2022
Colab notebooks demonstrating prompt-based music generation via Mubert API
GitHub: https://t.co/ExdfvXUCrR pic.twitter.com/2Ycwl7RUvX
3. Musika
任意の音楽を学習させることで、それっぽい新曲を生成できるようになります。
任意の音楽を学習させてそれっぽい新曲を生成することができるAI「musika」でテクノを作ってみた。品質はクラブで流れているレベルでカッコいいし、これが1曲/10秒くらいで無限に生成できるのはすごいね。
— 2f6i (@2feet6inches) October 22, 2022
Colab↓https://t.co/sgwGXbPybX#AIart #musika pic.twitter.com/UXNdS0pdrW
4. Dance Diffusion
「Dance Diffusion」は、「Harmonai」によって開発されたオーディオ生成のAIモデルです。現在は、以下の機能が提供されており、
・ランダムオーディオの生成
・1つのオーディオからの再生成 / スタイルの転送
・2つのオーディオ間の補完
diffusersではランダムオーディオ生成のみサポートしています。
5. Audio Diffusion
「Audio Diffusion」は、diffusionモデルでメルスペクトログラム画像を生成することで、音楽生成を行うAIモデルです。
diffusersでき、Colabでは以下のサンプルが提供されています。
・ランダムオーディオ生成
・ループ
・バリエーション
・アウトペインティング
・インペインティング
・リミックス (Style Transfer)
6. Riffusion
テキストから音楽を生成するAIモデルです。「Stable Diffusion」にスペクトログラム画像を追加学習させ、テキストからスペクトログラムを生成し、その画像から音楽を再生しています。
Stable Diffusionを使った音楽生成
— やまかず (@Yamkaz) December 15, 2022
「Riffusion」が公開!https://t.co/7QDuX5T8Wg
Stable Diffusionをスペクトログラム画像を生成するように微調整。生成した画像をオーディオクリップに変換する pic.twitter.com/x22YQDP7xe
7. Pop2Piano
オーディオ(wav/mp3)からピアノカバー(MIDI)に変換するAIモデルです。
Pop2Piano : Pop Audio-based Piano Cover Generation
— AK (@_akhaliq) November 3, 2022
abs: https://t.co/NtAnEY5pfN
project page: https://t.co/i9pmBgPZhb
github: https://t.co/kbeeh7dRxM pic.twitter.com/w9txRCbWbu
8. AudioLDM
「AudioLDM」は、テキストからサウンドエフェクト、人間の音声、音楽を生成するAIモデルです。
#AudioLDM を試す。 (画像は #memeplex )
— 布留川英一 / Hidekazu Furukawa (@npaka123) February 3, 2023
"2 cats are fighting"https://t.co/RtxwMBVgDB pic.twitter.com/UASzthDFRj