見出し画像

自作可能?音楽生成AIサービスにどんな技術が使われているかChatGPTに聞いてみた!

こんにちは!「1年後起業する人」です!

ここでは、私の起業に向けての学びや進捗をシェアしています。
私の目標は、「日本の地域振興と高齢者の雇用促進を観光業を通じて実現すること」です ٩( 'ω' )و

今回も一緒に学んでいきましょう!!




はじめに

最近、いろいろ作ることに没頭していたら、ついついブログの更新をサボってしまいました…
何かを作り出すプロセスに没頭していると、つい時間を忘れてしまいますよね…()
そんな中AIに触れているうちに、
「このAIサービス、どんな種類があって、どんな技術が使われているんだろう?」と好奇心が湧いてきました。

そこで、さっそく調べてみることにしました!
というかChatGPTに聞いてみました!AI最高!!

まずは、最近話題のsunoをはじめ、いくつかの音楽生成AIサービスをチェックしてみました。驚いたのは、それぞれのサービスで使われている技術が実に多様だということ。しかも、意外にもシンプルな技術で成り立っているサービスもあり、これには驚かされました!


音楽生成AIサービスの種類

まずは調査したことを表にまとめてみました!
こちら!!

$$
\begin{array}{|c|c|c|c|c|c|c|}
\hline
\textbf{種類} & \textbf{サービス名} & \textbf{特徴} & \textbf{主な用途} & \textbf{カスタマイズ性} & \textbf{料金プラン} \\ \hline
\text{テキストから音楽生成} & Udio & \text{テキストから高品質な音楽を生成} & \text{一般ユーザー向け} & \text{少ない} & \text{無料プランあり、月額制} \\ \hline
\text{} & Beatoven.ai & \text{テキストプロンプトで背景音楽を生成} & \text{コンテンツ制作者} & \text{高い} & \text{無料プランあり、ダウンロードは有料} \\ \hline
\text{} & Suno & \text{歌詞、ボーカル、カバーアートも生成} & \text{アーティスト、プロデューサー} & \text{高い} & \text{無料プランあり、月額制} \\ \hline
\text{カスタマイズ可能な音楽生成} & Soundraw & \text{ムードやジャンルを調整可能} & \text{動画編集者、ポッドキャスター} & \text{非常に高い} & \text{無料プランあり、月額制} \\ \hline
\text{} & Loudly & \text{コラボレーション機能、複数トラック生成} & \text{ソーシャルメディア} & \text{高い} & \text{無料プランあり、月額制} \\\hline
\text{プロ向け音楽生成} & AIVA & \text{映画やゲームのサウンドトラック作成} & \text{プロフェッショナル} & \text{高い} & \text{無料プランあり、月額制} \\ \hline
\text{} & Hydra II & \text{著作権クリアの音楽生成} & \text{商業利用} & \text{非常に高い} & \text{無料トライアルあり、月額制} \\ \hline
\text{コミュニティ/収益化} & Boomy & \text{ストリーミングプラットフォームとの連携} & \text{ミュージシャン} & \text{中程度} & \text{無料プランあり、月額制} \\ \hline
\text{} & Mubert & \text{リアルタイム音楽生成、収益化可能} & \text{コンテンツ制作者} & \text{高い} & \text{無料プランあり、月額制} \\ \hline
\text{初心者向け} & Splash Music & \text{簡単なインストゥルメンタル作成} & \text{初心者} & \text{低い} & \text{無料プランあり} \\ \hline
\end{array}
$$

こんなにあったんや…

正直、sunoとBoomyくらいしか知りませんでしたが、
「テキストから音楽生成」だけでも3つ挙がってますね!


どんな技術が使われている?

ということで本題。
早速表をお見せします。ドンっ

$$
\begin{array}{|c|c|c|}
\hline
\textbf{種類} & \textbf{サービス名} & \textbf{使用ライブラリ/フレームワーク} \\ \hline
\text{テキストから音楽生成} & Udio & \text{TensorFlowベース} \\ \hline
\text{} & Beatoven.ai & \text{PyTorch} \\ \hline
\text{} & Suno & \text{Hugging Face Transformers} \\ \hline
\text{カスタマイズ可能な音楽生成} & Soundraw & \text{Google Magenta} \\ \hline
\text{} & Loudly & \text{MuseNet、Jukedeck技術} \\ \hline
\text{プロ向け音楽生成} & AIVA & \text{自社開発アルゴリズム} \\ \hline
\text{} & Hydra II & \text{独自フレームワーク} \\ \hline
\text{コミュニティ/収益化} & Boomy & \text{PyTorch} \\ \hline
\text{} & Mubert & \text{Jukedeck技術、TensorFlow} \\ \hline
\text{初心者向け} & Splash Music & \text{TensorFlow} \\ \hline
\end{array}
$$

全体的に正直知らないです!笑
Hugging Face Transformersってなんやねん!!
ここでもChatGPT先生に聞いていきましょう

それぞれの使用ライブラリ、フレームワークについて、初心者にもわかるように説明してください

1. TensorFlow

  • 使用されているサービス: Udio, Mubert, Splash Music

  • 説明: TensorFlowは、Googleが開発した機械学習(AI)を作るためのツールキットです。プログラミングがあまり得意でない人でも、AIモデルを構築して学習させることができます。特に音楽のようなデータが多い分野では、このツールを使うことで複雑なパターンを見つけ、音楽を生成することが可能になります。

2. PyTorch

  • 使用されているサービス: Beatoven.ai, Boomy

  • 説明: PyTorchは、Facebookが開発した機械学習のライブラリです。TensorFlowと同様に、AIモデルを作成するために使われますが、PyTorchはより柔軟で、開発者がモデルを作りながら調整しやすいという特徴があります。このツールを使うことで、音楽生成のためのモデルをより簡単にテストして改良できます。

3. Hugging Face Transformers

  • 使用されているサービス: Suno

  • 説明: Hugging Faceは、自然言語処理(NLP)に特化したAIライブラリです。通常はテキストを処理するために使われますが、Sunoでは歌詞やボーカルの生成に応用されています。たとえば、ユーザーが入力したテキストから自然な歌詞を生成したり、それに合わせたメロディを作ることができます。

4. Google Magenta

  • 使用されているサービス: Soundraw

  • 説明: Magentaは、Googleが開発した音楽とアートに特化したAIツールです。Magentaを使うことで、音楽の構造やパターンを学び、独自の曲を生成することができます。Soundrawでは、この技術を利用して、ユーザーが指定したジャンルやムードに基づいて音楽を生成しています。

5. MuseNet

  • 使用されているサービス: Loudly

  • 説明: MuseNetは、OpenAIが開発したAIで、特に複雑な音楽の生成に優れています。クラシックから現代のポップミュージックまで、さまざまなスタイルの音楽を学習し、それを基に新しい曲を作り出すことができます。Loudlyでは、この技術を活用して、多彩な音楽スタイルを提供しています。

6. 自社開発アルゴリズム

  • 使用されているサービス: AIVA, Hydra II

  • 説明: AIVAやHydra IIでは、特定のフレームワークに依存せず、自社開発の専用アルゴリズムを使用しています。これにより、特定の音楽スタイルや要件に最適化された音楽生成が可能となります。たとえば、AIVAはクラシック音楽に特化したアルゴリズムを使用して、映画やゲームのサウンドトラックを生成します。


あれ?自分で開発できるのでは?

あれ?
これ、Pythonで開発できるんじゃない??

はい、Pythonが扱える人であれば、ある程度近いモデルを開発することは可能です。以下のポイントを考慮していただければと思います。
1. ライブラリの理解と使用
TensorFlowPyTorchといった機械学習ライブラリを学ぶことで、音楽生成に必要な基本的なディープラーニングモデルを構築することができます。これらのライブラリは、AIモデルのトレーニングや推論のために広く使用されており、音楽データのパターンを学習させることができます。
2. 既存のフレームワークを利用
MagentaMuseNetなどの既存のフレームワークやオープンソースプロジェクトを活用することで、ゼロからモデルを開発するのではなく、既存の技術をカスタマイズして使うことができます。これにより、音楽生成のプロセスを加速させることができます。
3. トレーニングデータの収集
高品質なモデルを作るためには、大量の音楽データが必要です。例えば、MIDI形式の音楽ファイルや、音楽理論に基づいたデータセットを使ってモデルをトレーニングすることが考えられます。データの前処理(データのクリーニングや正規化)は、モデルの性能に大きく影響します。
4. カスタマイズと実験
音楽生成モデルは非常に柔軟で、多くのパラメータを調整することで異なるスタイルの音楽を生成できます。例えば、生成する音楽のジャンル、ムード、テンポ、キーなどを設定して、出力結果を調整することが可能です。
5. コミュニティとリソースの活用
オンラインのチュートリアル、フォーラム、オープンソースコミュニティを活用することで、問題解決や技術の向上が図れます。特にGitHubには、音楽生成に関連する多くのプロジェクトやコードサンプルが公開されています。
まとめ
Pythonに精通している人であれば、既存のライブラリやフレームワークを利用して、比較的近い音楽生成モデルを開発することが可能です。ただし、完全に新しいモデルを一から構築するには、音楽理論や機械学習の知識、そして適切なデータセットが必要です。それでも、オープンソースのツールを活用することで、かなりの部分を補えるでしょう。

ChatGPT先生の回答

いやそれ、できないって言ってるやん。
でも、めちゃくちゃすごそうなAIサービスが、Pythonで使えるようなライブラリを使用しているってことだけで、なんか面白いですよね!

これ何か使えないかな…🧐

たとえば、TensorFlowやPyTorchなんかは、オープンソースで提供されていて、ネットにはたくさんのチュートリアルもあります。

これからも、こうした技術を使って、新しい音楽の可能性を探っていく人が増えるんじゃないかなと思います。
音楽制作がこれほど身近になるなんて、ほんとに面白い時代になりましたね。

AIが作る音楽が、もっと多くの人に届く日もそう遠くないかもしれません。

決まったア

最後に

いかがでしたでしょうか?
最近のAIの進化には目を見張るものがありますね!これからも、新しい技術やサービスをどんどん取り入れていきたいと思います。

皆さんもぜひ、コメントで感想や質問をシェアしてくださいね!
次回もお楽しみに〜!



いいなと思ったら応援しよう!

この記事が参加している募集