![見出し画像](https://assets.st-note.com/production/uploads/images/127106911/rectangle_large_type_2_9de192dbbe1b42a39b0a0edc2395d536.png?width=1200)
M2UGen の概要
「M2UGen」の概要をまとめました。
1. M2UGen
「M2UGen」は、テキスト・画像・動画からの音楽生成・音楽理解・音楽編集が可能です。
「音楽理解」には「MERT」、「画像理解」には「ViT」、「動画理解」には「ViViT」、「音楽生成」には「MusicGen」「AudioLDM2」を利用し、「アダプタ」や「LLaMA2」と組み合わせることで、複数の能力を持つモデルとなっています。
![](https://assets.st-note.com/img/1704777855450-8mh1Dmy069.jpg?width=1200)
2. M2UGen のデータセット
「MU-LLaMA」「MPT-7B-Chat」を使用して音楽指向のデータセットを、「BLIP画像キャプションモデル」「VideoMAEキャプションモデル」を使用してキャプションを生成します。
2-1. MUCapsデータセット
21966曲、1273.78時間のキャプション生成のためのデータセットです。
・音楽ファイル → MU-LLaMA → 音楽キャプション
・画像ファイル → BLIP画像キャプションモデル → 画像キャプション
・動画ファイル → VideoMAEキャプションモデル → 動画キャプション
2-2. MUImageデータセット
9966の画像-音楽ペア、27.72時間の曲の画像説明文生成のためのデータセットです。
・画像キャプション + 音楽キャプション → MPT-7B → MUImageの説明文
2-3. MUVideoデータセット
13203の動画-音楽ペア、36.72時間の曲の動画説明文生成のためのデータセットです。
・動画キャプション + 音楽キャプション → MPT-7B → MUVideoの説明文
2-4. MUEditデータセット
10815の音楽-音楽ペア、60.22時間の曲の音楽編集のためのデータセットです。
・音楽キャプション + 音楽キャプション + MPT-7B + MUEdit の手順
3. M2UGen のデモ
デモを日本語に翻訳してます。原文は公式ページ参照。
3-1. テキストからの音楽生成と音楽理解
テキストからの音楽生成と音楽理解に関するデモです。
![](https://assets.st-note.com/img/1704779279888-iVTJ0jLlmv.png?width=1200)
3-2. テキストからの音楽生成と音楽編集
テキストからの音楽生成と音楽編集に関するデモです。
![](https://assets.st-note.com/img/1704779756201-t5n4qRqldd.png?width=1200)
3-3. 画像からの音楽生成と音楽理解
画像からの音楽生成と音楽理解に関するデモです。
![](https://assets.st-note.com/img/1704780005020-5Meq7A5rtc.png?width=1200)
3-4. 画像からの音楽生成と音楽編集
画像からの音楽生成と音楽編集に関するデモです。
![](https://assets.st-note.com/img/1704780196562-rlQ1pntVhK.png?width=1200)
3-5. 動画からの音楽生成と音楽理解
動画からの音楽生成と音楽理解に関するデモです。
![](https://assets.st-note.com/img/1704780415688-X8KJ4vVOzD.png?width=1200)
3-6. 動画からの音楽生成と音楽編集
動画からの音楽生成と音楽編集に関するデモです。
![](https://assets.st-note.com/img/1704780578309-3uRRGaMgMw.png?width=1200)
3-7. 音楽編集
音楽編集と音楽理解に関するデモです。
![](https://assets.st-note.com/img/1704780780980-Nd4r2MwRph.png?width=1200)