M2UGen の概要

2024年1月9日 15:17

「M2UGen」の概要をまとめました。

1. M2UGen

「M2UGen」は、テキスト・画像・動画からの音楽生成・音楽理解・音楽編集が可能です。

「音楽理解」には「MERT」、「画像理解」には「ViT」、「動画理解」には「ViViT」、「音楽生成」には「MusicGen」「AudioLDM2」を利用し、「アダプタ」や「LLaMA2」と組み合わせることで、複数の能力を持つモデルとなっています。

・ホーム
・コード
・デモ

2. M2UGen のデータセット

「MU-LLaMA」「MPT-7B-Chat」を使用して音楽指向のデータセットを、「BLIP画像キャプションモデル」「VideoMAEキャプションモデル」を使用してキャプションを生成します。

2-1. MUCapsデータセット

21966曲、1273.78時間のキャプション生成のためのデータセットです。

・音楽ファイル → MU-LLaMA → 音楽キャプション
・画像ファイル → BLIP画像キャプションモデル → 画像キャプション
・動画ファイル → VideoMAEキャプションモデル → 動画キャプション

2-2. MUImageデータセット

9966の画像-音楽ペア、27.72時間の曲の画像説明文生成のためのデータセットです。

・画像キャプション + 音楽キャプション → MPT-7B → MUImageの説明文

2-3. MUVideoデータセット

13203の動画-音楽ペア、36.72時間の曲の動画説明文生成のためのデータセットです。

・動画キャプション + 音楽キャプション → MPT-7B → MUVideoの説明文

2-4. MUEditデータセット

10815の音楽-音楽ペア、60.22時間の曲の音楽編集のためのデータセットです。

・音楽キャプション + 音楽キャプション + MPT-7B + MUEdit の手順

3. M2UGen のデモ

デモを日本語に翻訳してます。原文は公式ページ参照。

3-1. テキストからの音楽生成と音楽理解

テキストからの音楽生成と音楽理解に関するデモです。

3-2. テキストからの音楽生成と音楽編集

テキストからの音楽生成と音楽編集に関するデモです。

3-3. 画像からの音楽生成と音楽理解

画像からの音楽生成と音楽理解に関するデモです。

3-4. 画像からの音楽生成と音楽編集

画像からの音楽生成と音楽編集に関するデモです。

3-5. 動画からの音楽生成と音楽理解

動画からの音楽生成と音楽理解に関するデモです。

3-6. 動画からの音楽生成と音楽編集

動画からの音楽生成と音楽編集に関するデモです。

3-7. 音楽編集

音楽編集と音楽理解に関するデモです。