見出し画像

✨話題の「MMAudio」って知ってる❓動画に音声を簡単追加🎶無料AIで動画作成が超進化!Google Veo 2やHunyuanVideo 等の比較や、Sora×SunoAIの組み合わせも解説💖

どうも皆さん!買ったばかりの傘を、晴れの日にどこかに忘れてくる、傘との別れが多い葉加瀬あい(ハカセアイ)です!

今回は、動画に音声を加えることができる最新技術「MMAudio」について解説します!

動画編集って、音声をつけるのが面倒くさくないですか?フリー素材を探すのも一苦労だし、動画と音声をタイミングよく合わせるのも大変…。

「もっと簡単に、動画にピッタリの音声をつけられたらいいのに…」と思ったことはありませんか?

実は、そんな悩みを解決してくれるのが、今話題の「MMAudio」なんです!しかも、無料で使えるオープンソース技術なので、誰でも手軽に試せます!

ということで今回お話しする内容はこんな感じです!

  • ① 動画やテキストから同期した音声を生成!今年最高のAIモデルの一つとも言われる「MMAudio」の正体とは?

  • ② 一般的な動画生成AIは、VRAMを大量消費しがち…でも「MMAudio」は、VRAM 12GBから使えるって本当!?

  • ③ 無料の動画生成AI「HunyuanVideo」と組み合わせれば、さらに面白いことができる!?誰でも簡単にできる動画生成方法も紹介!

それで、私の メンバーシップ に入門されている方は、いつものように記事内容を 動画 で見ることができます!

動画版は、こちらのURLからご覧ください!

https://note.com/ai_hakase/n/ne72ebfea835f

それから、Noteのメンバーシップ の入門者さんには 質問対応 なども行っていますので、感想や質問などありましたら、できれば Xのリプライ で教えてください!

XのDM や Noteのコメント でも構いません🙆‍♀️

※ 質疑応答の際は 『NoteのID + 質問したいNote記事のURL』 を添えてください。

https://x.com/ai_hakase_

それでは、本日もよろしくお願いします!


それでは、最近SNSで話題の「MMAudio」について解説させていただきます!

話題の動画生成AIツール「MMAudio」とは?

ということで今回は、最近SNSで瞬く間に話題となった技術、「 MMAudio 」について解説をしていきたいと思います⋯!

これはどんな技術なのかと言いますと、簡単に言うと、 動画に音声を加えることができる といった技術になります。

詳しく説明しますと、MMAudioは、Hugging Faceの「hkchengrex」氏によって作成された、動画やテキストから同期した音声を生成できるAIツールです。

なんと、今年最高のAIモデルの一つ、だとも言われているんです!

Googleの動画生成AI「Veo 2」

例えば、私が最近こちらで開設したGoogleの現在最強の動画生成AIである Veo 2 って皆さん覚えていらっしゃいますか⋯?

Googleの動画生成AI「Veo」と「MMAudio」でリアルな音声付き動画が生成可能に!

Googleの動画生成AI「 Veo 」と音楽生成AI「 MMAudio 」を組み合わせることで、 かなりリアルな音声付きの動画 を生成できるんです⋯!

生成された動画の品質について

動画の品質もかなり リアル です。
こちらの鉄を叩いている動画をご覧ください。本物と見間違うほどですよね⋯!

効果音や人間の声の再現

こちらの動画を見ていただくとわかるのですが、効果音や動きだけでなく、 人間の声なども再現 することができます。

動画生成AIと音楽生成AIの組み合わせで広がる可能性

それと動画生成AIの「Sora」と、楽曲生成AIの「SunoAI」などを組み合わせることで、 非常に面白いプロモーションビデオのようなもの も作ることができるようになりました!

「これはすごい!」と思われた方もいるのではないでしょうか?

夢がどんどん広がってきている気がします⋯!

音楽生成AIで動画に合わせた音楽を生成

さらに、生成した動画に合わせて、「Indian holy music のような音楽をつけてください」といった感じの プロンプトを入力 することで、それらしい音楽をつけてくれることも可能です!

オープンソースで誰でも利用可能!MMAudioの魅力**

そしてなんとこちら、 オープンソース で公開されているんです⋯!つまり、 無料 で利用できます!

でも、動画生成AIなどのオープンソースバージョンは、24GBものVRAMを必要とすることが多く、結局自分のPCのスペックでは使えないことも多いですよね。「どうせ私のPCじゃ使えないんだろうな⋯」と思っている方もいらっしゃるのではないでしょうか。

MMAudioはVRAM 12GBから利用可能!**

でもご安心ください!今回のMMAudioに関しましては、なんと VRAM 12GBから使うことができる んです⋯! Google ColabやAmazon SageMakerなどのクラウドサービスからでも、簡単に利用することができます。

つまり、どんなPCを持っていたとしても、ネットに接続さえできれば、誰でも無料でクラウドサービスから利用できるということなんです!これは嬉しいですね!

さらに詳しい解説はこちら**

ここら辺のクラウドサービスからの利用方法とかに関しては、私もこちらの記事で詳しく解説しているのですが、そのことについてはまた後ほど触れていきます!

MMAudioのクラウド環境での使い方などに関しては 講述したいかと思います!

動画Clipの音声を高速生成**

ちなみに、こちらの動画では、6秒間の動画Clipの音声を生成してみたところ、なんと 30秒 で生成が完了したそうです!本当にあっという間ですよね。

無料の動画生成AI「HunyuanVideo」のすごさとは?

それと、先ほどご紹介したような有料の動画生成AIではなく、 無料 の動画生成AIである「HunyuanVideo」と組み合わせて作られた動画があるのですが⋯⋯そちらもかなりリアリティがありますよね!

正直、無料のAIの組み合わせだけでこんなにクオリティの高いものが作れるなんて、本当にすごい時代になったものです!

HunyuanVideoの詳細な解説について

ちなみに、HunyuanVideoの詳細な解説についてはこちらの記事で紹介していますので、よろしければぜひご覧くださいませ。

誰でも簡単!ComfyUIを使った動画生成方法

具体的な使い方については、こちらで ComfyUI という無料のAIツールを使って、誰でも簡単に動画生成できる方法を解説しています!

HunyuanVideo と LTX Video で音楽付き動画を生成

ちなみにですが、HunyuanVideo の競合の、同じくオープンソースで無料で使える動画生成AIである LTX Video と組み合わせても、プロンプトに「Music」と入れるだけで、 かっこいい音声を動画につける ことが可能です⋯!

Blaine Brown 氏のスターウォーズパロディ動画「Squad 13」

個人的にすごく好きなのが、こちらの Blaine Brown 氏が作成した、スターウォーズのパロディ動画「Squad 13」になります⋯!
使用されている技術はこのような感じみたいです。オープンソースと書かれているところは無料のものになります。

  • Visuals - Google Veo2  こちらはおなじみの Google の動画生成 AI です。

  • Sound FX - MMAudio (open source) それではこちらが今回ご紹介する MMAudio です。

  • Voices - F5TTS (open source) こちらは F5TTS というオープンソースの音声生成 AI です。2 秒から 10 秒ぐらいの音声を AI に読み込ませると、数秒でその音声クローンを作ってくれます!つまりは少しだけしか喋っていないのに、その人の声で、AI 音声がすごくリアルなもので生成されてしまうという技術になります⋯!

オープンソースの音声生成AI「F5TTS」**

最後にご紹介した F5TTS についてですが、私も以前にこちらの記事で詳しく使い方や導入方法などを解説しています。気になる方は、ぜひご覧ください⋯!記事でも動画でもご紹介しています。

https://note.com/ai_hakase/n/n767be7104579

MMAudioの仕組みについて

さて、ここからは MMAudio の仕組みについて、もう少し解説させてください。
もともと同じような技術に Movie Gen Audio というものがあったのですが、それと比べてもかなり軽量化されていて、本当に生の音に近い音が生成できます⋯!

MMAudioは軽量で効率的

詳しくお伝えしますと、モデルサイズは1/10以下、学習データは1/100以下と、非常に軽量で効率的なんだそうです!

MMAudioと従来手法の比較

しかもこちらを見ていただくとわかると思うのですが、従来の手法とMMAudioで生成された音声のスペクトログラムが比較されています。MMAudioの方がより正確に音声を生成していることが見て取れます!

つまり、動物が動いたりドラムのキックが鳴らされたりといったときのような、「この動作をしたときにどういう音がする」といった一貫性が本当に素晴らしいです⋯!

MMAudioのフロー予測ネットワークとは?

こちらをご覧ください⋯!

MMAudioの フロー予測ネットワークの概要 が示されていて、ビデオ、テキスト、オーディオの情報がどのように処理されるかがわかります!

video-to-audioの学習方法

その他の主なポイントについても、私の方で簡単に解説いたします!

1.  video-to-audioの学習 に、大量に得られる text-audioのペアデータ も活用しています。
2. 動画と音の 時間的な一貫性 を向上させるための新しいモジュールを提案しています。

このような形になっております⋯!

論文情報

ちなみに、論文自体はこちらに掲載されておりますので、詳しく見たい方はぜひ⋯!

https://arxiv.org/abs/2412.15322

MM-Audio-Videoの機能を体験しましょう

それとここからは、面倒な環境構築などしないで 簡単にウェブ上から試せる方法をお伝えしていきたいと思います。

ここから先は

3,589字 / 9画像

🎈葉加瀬のAI研究室 ~あいラボ~ 記事/動画/質問プラン

¥2,599 / 月
あと1人募集中
このメンバーシップの詳細

この記事が参加している募集

この記事が気に入ったらチップで応援してみませんか?