見出し画像

音と音楽を生み出す未来!?メタ社がフレームワークをオープンソース化!


AIの進化

ほどなくして、人間らしい風格で文章や画像を生成するだけでなく、プロ並みの音楽や音を創造するAIの時代がやってきます!

今朝、メタ社は、短いテキストの説明文、いわゆるプロンプトから「高品質」で「リアルな」音楽や音声を生成するフレームワーク、AudioCraftを発表しました!これはメタ社の音声生成への初めての挑戦ではありません。実際、同社は6月にAIによる音楽生成器MusicGenをオープンソース化しています。しかし、メタ社は、犬の吠え声や車のクラクション、木の床を歩く足音など、AIによる音声の品質を大幅に向上させたと主張しています!

AudioCraftの特徴

メタ社がTechCrunchと共有したブログ記事によれば、AudioCraftフレームワークは、既存の研究(例えば、Riffusion、Dance Diffusion、OpenAIのJukeboxなど)に比べて、生成モデルを音声に応用する作業を単純化するために設計されました。オープンソースで利用可能なAudioCraftのコードは、さまざまなコードベースを切り替えることなく曲や音声を生成・エンコードするための、音と音楽の生成器および圧縮アルゴリズムの集合体を提供します。

AudioCraftには3つの生成AIモデルが含まれています:MusicGen、AudioGen、そしてEnCodecです。

MusicGenとは

MusicGenは新しいものではありません。しかし、メタ社はその訓練コードを公開し、ユーザーが自分自身の音楽データセットでモデルを訓練できるようにしました!これには、MusicGenが既存の音楽から「学び」、類似の効果を生み出すことから、全てのアーティストや生成AIのユーザーが快適に感じるわけではない、重大な倫理的・法的問題が生じる可能性があります。

AudioGenとは

AudioGenは、AudioCraftに含まれるもう一つの音声生成モデルで、音楽やメロディではなく、環境音や音響効果を生成することに特化しています。

AudioGenは拡散型モデルで、現代のほとんどの画像生成(OpenAIのDALL-E 2、GoogleのImagen、Stable Diffusionなどを参照)と同じような仕組みです。拡散では、モデルは完全なノイズから始まるデータから段階的にノイズを減らす方法を学びます。例えば、音声や画像を目指すプロンプトに徐々に近づけます。

EnCodecとは

AudioCraftの3つのモデルの中で、EnCodecは、以前のMetaモデルを改良したもので、より少ないアーティファクトで音楽を生成します。メタ社は、EnCodecが音声シーケンスをより効率的にモデル化し、訓練データ音声波形の異なる情報レベルを捉えて新しい音声を作り出すことができると主張しています。

AudioCraftの可能性

AudioCraftについてどう考えるべきでしょうか?予想通り、メタ社はその潜在的な利点を強調しています。例えば、音楽家へのインスピレーションの提供や、人々が作曲に「新しい方法」で取り組む手助けをします。しかし、画像やテキスト生成器の登場が示してくれたように、影の中にはデメリットや法的な問題が潜んでいます。

結果がどうなろうとも、メタ社は、生成音声モデルのパフォーマンスを改善する方法や、その制限やバイアスを軽減する方法を探求し続ける計画だと言っています。バイアスについては、メタ社はMusicGenが英語以外の言語や西洋以外の音楽スタイルと文化の説明に対してはうまく機能しないことを指摘しています。これは訓練データの明らかなバイアスによるものです。

Meta open sources framework for generating sounds and music

https://techcrunch.com/2023/08/02/meta-open-sources-models-for-generating-sounds-and-music/

この記事が参加している募集

「サポートエリアへようこそ!ここではさまざまな形であなたをサポートします。質問や意見、励ましのメッセージなど、お気軽にお寄せください。一緒に学び成長しましょう!あなたのサポートを心待ちにしています。」