見出し画像

最近話題の音生成AIまとめ

最近話題の音生成AIをまとめました。


1. AudioCraft

「AudioCraft」は、Metaが開発した、深層学習によるオーディオ処理と生成のためのライブラリです。次の3つのモデルが含まれています。

・MusicGen:テキストからの音楽生成
・AudioGen:テキストからの音声生成
・EnCodec:より高い音声クオリティの音楽生成

2. AudioLDM 2

「AudioLDM 2」は、テキストから音声、音楽、効果音などあらゆる種別のオーディオを生成するAIです。「AudioLDM 2」では、オーディオを「LOA」(Language of audio)とオーディオ表現に変換して処理することで、高い汎用性を生み出しています。

3. AudioSep

「AudioSep」は、テキスト指示から音源を分離するAIです。様々な混ざりあった音から、「acoustic guitar」でアコースティックギター、「cat」で猫、「A rocket flies by followed by a loud explosion and fire crackling as a truck engine runs」で「ロケットが飛行し、トラックのエンジンが作動した後、大きな爆発と火がパチパチいう音」のみが分離されます。

4. LP-MusicCaps

「LP-MusicCaps」は、音楽にキャプションを付けるAIです。これによって、Text-to-Musicタスク用の、LLMベースの擬似音楽キャプションデータセットを作成することができます。

LP-MusicCaps MSD : 0.5M オーディオ、2.2M キャプション
LP-MusicCaps MTT : 22k オーディオ、88k キャプション
LP-MusicCaps MC : 5521 オーディオ、22084 キャプション。

5. MusicLDM

「MusicLDM」は、盗作音楽を生成しないText-to-Musicタスク用のAIです。コードと事前学習モデルは8月中旬に提供予定とのことです

関連



この記事が気に入ったらサポートをしてみませんか?