✨話題の「MMAudio」って知ってる❓動画に音声を簡単追加🎶無料AIで動画作成が超進化！Google Veo 2やHunyuanVideo 等の比較や、Sora×SunoAIの組み合わせも解説💖

葉加瀬あい (AI-Hakase)🎈動画&Note でAI解説🎥https://x.gd/F2Mvl

2024年12月30日 18:24

どうも皆さん！買ったばかりの傘を、晴れの日にどこかに忘れてくる、傘との別れが多い葉加瀬あい（ハカセアイ）です！

今回は、動画に音声を加えることができる最新技術「MMAudio」について解説します！

pic.twitter.com/zJ4yaGjo3L
— 葉加瀬あい（AI-Hakase）🎈 最新AIを解説中･:*:･｡ (@ai_hakase_) December 30, 2024

動画編集って、音声をつけるのが面倒くさくないですか？フリー素材を探すのも一苦労だし、動画と音声をタイミングよく合わせるのも大変…。

「もっと簡単に、動画にピッタリの音声をつけられたらいいのに…」と思ったことはありませんか？

実は、そんな悩みを解決してくれるのが、今話題の「MMAudio」なんです！しかも、無料で使えるオープンソース技術なので、誰でも手軽に試せます！

pic.twitter.com/UBal2sjxHP
— 葉加瀬あい（AI-Hakase）🎈 最新AIを解説中･:*:･｡ (@ai_hakase_) December 30, 2024

ということで今回お話しする内容はこんな感じです！

① 動画やテキストから同期した音声を生成！今年最高のAIモデルの一つとも言われる「MMAudio」の正体とは？
② 一般的な動画生成AIは、VRAMを大量消費しがち…でも「MMAudio」は、VRAM 12GBから使えるって本当！？
③ 無料の動画生成AI「HunyuanVideo」と組み合わせれば、さらに面白いことができる！？誰でも簡単にできる動画生成方法も紹介！

それで、私の メンバーシップ に入門されている方は、いつものように記事内容を『動画』で見ることができます！

動画版は、こちらのURLからご覧ください！

https://note.com/ai_hakase/n/ne72ebfea835f

それから、Noteのメンバーシップの入門者さんには 質問対応 なども行っていますので、感想や質問などありましたら、できれば Xのリプライで教えてください！

XのDM や Noteのコメントでも構いません🙆‍♀️

※ 質疑応答の際は 『NoteのID + 質問したいNote記事のURL』 を添えてください。

https://x.com/ai_hakase_

それでは、本日もよろしくお願いします！

それでは、最近SNSで話題の「MMAudio」について解説させていただきます！

話題の動画生成AIツール「MMAudio」とは？

ということで今回は、最近SNSで瞬く間に話題となった技術、「 MMAudio 」について解説をしていきたいと思います⋯！

これはどんな技術なのかと言いますと、簡単に言うと、 動画に音声を加えることができる といった技術になります。

詳しく説明しますと、MMAudioは、Hugging Faceの「hkchengrex」氏によって作成された、動画やテキストから同期した音声を生成できるAIツールです。

なんと、今年最高のAIモデルの一つ、だとも言われているんです！

Mario irl. Google Veo2 + MMAudio is magic. 🪄😁 (thread 🧵1/3) 🔊🔊 pic.twitter.com/bLLxxy4MdZ
— Blaine Brown (@blizaine) December 24, 2024

Googleの動画生成AI「Veo 2」

例えば、私が最近こちらで開設したGoogleの現在最強の動画生成AIである Veo 2 って皆さん覚えていらっしゃいますか⋯？

Googleの動画生成AI「Veo」と「MMAudio」でリアルな音声付き動画が生成可能に！

Googleの動画生成AI「 Veo 」と音楽生成AI「 MMAudio 」を組み合わせることで、 かなりリアルな音声付きの動画 を生成できるんです⋯！

Veo 2 and MMAudio is magic ✨ https://t.co/Nik7EaK9RB pic.twitter.com/fzdszXnUi4
— Dylan Neve (@DylanNeve10) December 26, 2024

生成された動画の品質について

動画の品質もかなり リアル です。
こちらの鉄を叩いている動画をご覧ください。本物と見間違うほどですよね⋯！

pic.twitter.com/LV2ojeTB69
— Dylan Neve (@DylanNeve10) December 26, 2024

効果音や人間の声の再現

こちらの動画を見ていただくとわかるのですが、効果音や動きだけでなく、 人間の声なども再現 することができます。

Buddy’s walking & (unintelligible talking) 😆 pic.twitter.com/fiPx3OaON7
— Blaine Brown (@blizaine) December 24, 2024

動画生成AIと音楽生成AIの組み合わせで広がる可能性

それと動画生成AIの「Sora」と、楽曲生成AIの「SunoAI」などを組み合わせることで、 非常に面白いプロモーションビデオのようなもの も作ることができるようになりました！

「これはすごい！」と思われた方もいるのではないでしょうか？

夢がどんどん広がってきている気がします⋯！

WEEKEND PROJECT → AI DRAG RACE

Inspo from one Midjourney V4 image.

Using all the tools:
+ Midjourney
+ Runway Gen-3
+ Kling 1.6
+ Minimax 01-Live
+ Sora
+ MMAudio

MIDJOURNEY BASE PROMPT:
editorial photo, bmw on a road driving to the right, racing an F16 jet in the sky flying… pic.twitter.com/OfWJ9etzM5
— Rory Flynn (@Ror_Fly) December 28, 2024

音楽生成AIで動画に合わせた音楽を生成

さらに、生成した動画に合わせて、「Indian holy music のような音楽をつけてください」といった感じの プロンプトを入力 することで、それらしい音楽をつけてくれることも可能です！

オープンソースで誰でも利用可能！MMAudioの魅力**

そしてなんとこちら、 オープンソース で公開されているんです⋯！つまり、無料で利用できます！

でも、動画生成AIなどのオープンソースバージョンは、24GBものVRAMを必要とすることが多く、結局自分のPCのスペックでは使えないことも多いですよね。「どうせ私のPCじゃ使えないんだろうな⋯」と思っている方もいらっしゃるのではないでしょうか。

MMAudioはVRAM 12GBから利用可能！**

でもご安心ください！今回のMMAudioに関しましては、なんと VRAM 12GBから使うことができる んです⋯！ Google ColabやAmazon SageMakerなどのクラウドサービスからでも、簡単に利用することができます。

つまり、どんなPCを持っていたとしても、ネットに接続さえできれば、誰でも無料でクラウドサービスから利用できるということなんです！これは嬉しいですね！

さらに詳しい解説はこちら**

ここら辺のクラウドサービスからの利用方法とかに関しては、私もこちらの記事で詳しく解説しているのですが、そのことについてはまた後ほど触れていきます！

MMAudioのクラウド環境での使い方などに関しては講述したいかと思います!

動画Clipの音声を高速生成**

ちなみに、こちらの動画では、6秒間の動画Clipの音声を生成してみたところ、なんと 30秒 で生成が完了したそうです！本当にあっという間ですよね。

Another one pic.twitter.com/mZJFMFHiet
— cocktail peanut (@cocktailpeanut) December 22, 2024

無料の動画生成AI「HunyuanVideo」のすごさとは？

それと、先ほどご紹介したような有料の動画生成AIではなく、無料の動画生成AIである「HunyuanVideo」と組み合わせて作られた動画があるのですが⋯⋯そちらもかなりリアリティがありますよね！

正直、無料のAIの組み合わせだけでこんなにクオリティの高いものが作れるなんて、本当にすごい時代になったものです！

I've been experimenting with trying to create something interesting #AIVideo war theme with visual effects (VFX) & camera movement. #AIFilmmaking @TXhunyuan #HunyuanVideo Text-to-Video #AI Tool on @nimvideo #nimvideo.#AIAudio created with #MMAudio on pinokio @cocktailpeanut. pic.twitter.com/syO1TWzU3A
— Andrianogabrielb (@XVisualneuFX) December 26, 2024

HunyuanVideoの詳細な解説について

ちなみに、HunyuanVideoの詳細な解説についてはこちらの記事で紹介していますので、よろしければぜひご覧くださいませ。

誰でも簡単！ComfyUIを使った動画生成方法

具体的な使い方については、こちらで ComfyUI という無料のAIツールを使って、誰でも簡単に動画生成できる方法を解説しています！

HunyuanVideo と LTX Video で音楽付き動画を生成

ちなみにですが、HunyuanVideo の競合の、同じくオープンソースで無料で使える動画生成AIである LTX Video と組み合わせても、プロンプトに「Music」と入れるだけで、 かっこいい音声を動画につける ことが可能です⋯！

Blaine Brown 氏のスターウォーズパロディ動画「Squad 13」

個人的にすごく好きなのが、こちらの Blaine Brown 氏が作成した、スターウォーズのパロディ動画「Squad 13」になります⋯！
使用されている技術はこのような感じみたいです。オープンソースと書かれているところは無料のものになります。

Visuals - Google Veo2 　こちらはおなじみの Google の動画生成 AI です。
Sound FX - MMAudio (open source)　それではこちらが今回ご紹介する MMAudio です。
Voices - F5TTS (open source)　こちらは F5TTS というオープンソースの音声生成 AI です。2 秒から 10 秒ぐらいの音声を AI に読み込ませると、数秒でその音声クローンを作ってくれます！つまりは少しだけしか喋っていないのに、その人の声で、AI 音声がすごくリアルなもので生成されてしまうという技術になります⋯！

These tools are getting crazy! 🤯
“Squad 13” - A Star Wars Parody

Visuals - Google Veo2
Sound FX - MMAudio (open source)
Voices - F5TTS (open source)
🔊🔊 pic.twitter.com/dvtxLkPkuK
— Blaine Brown (@blizaine) December 20, 2024

オープンソースの音声生成AI「F5TTS」**

最後にご紹介した F5TTS についてですが、私も以前にこちらの記事で詳しく使い方や導入方法などを解説しています。気になる方は、ぜひご覧ください⋯！記事でも動画でもご紹介しています。

https://note.com/ai_hakase/n/n767be7104579

MMAudioの仕組みについて

さて、ここからは MMAudio の仕組みについて、もう少し解説させてください。
もともと同じような技術に Movie Gen Audio というものがあったのですが、それと比べてもかなり軽量化されていて、本当に生の音に近い音が生成できます⋯！

MMAudioは軽量で効率的

詳しくお伝えしますと、モデルサイズは1/10以下、学習データは1/100以下と、非常に軽量で効率的なんだそうです！

MMAudioと従来手法の比較

しかもこちらを見ていただくとわかると思うのですが、従来の手法とMMAudioで生成された音声のスペクトログラムが比較されています。MMAudioの方がより正確に音声を生成していることが見て取れます！

つまり、動物が動いたりドラムのキックが鳴らされたりといったときのような、「この動作をしたときにどういう音がする」といった一貫性が本当に素晴らしいです⋯！

MMAudioのフロー予測ネットワークとは？

こちらをご覧ください⋯！

MMAudioの フロー予測ネットワークの概要 が示されていて、ビデオ、テキスト、オーディオの情報がどのように処理されるかがわかります！

video-to-audioの学習方法

その他の主なポイントについても、私の方で簡単に解説いたします！

1.　 video-to-audioの学習 に、大量に得られる text-audioのペアデータ も活用しています。
2.　動画と音の 時間的な一貫性 を向上させるための新しいモジュールを提案しています。

このような形になっております⋯！

論文情報

ちなみに、論文自体はこちらに掲載されておりますので、詳しく見たい方はぜひ⋯！

https://arxiv.org/abs/2412.15322

MM-Audio-Videoの機能を体験しましょう

それとここからは、面倒な環境構築などしないで簡単にウェブ上から試せる方法をお伝えしていきたいと思います。

ここから先は

3,589字 / 9画像

🎈葉加瀬のAI研究室 ~あいラボ~ 記事/動画/質問プラン

¥2,599 / 月

あと6人募集中

🎥𓈒最新AI技術の『記事・動画』の閲覧が自由に。 🔰質問OKで、初心者の方も安心です。 👤定員に達し次第、募集終了となります。（質疑応答の人数に限りがあるためです。）ご入門はお早めに！詳細はXのDMまで💌 ̖́- https://x.gd/y7VqE

X、Noteでの質問対応もOKです⭕️
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が参加している募集

#AIとやってみた

46,369件

この記事が気に入ったらチップで応援してみませんか？