
Google Colab で AudioLDM による音楽生成を試す
Google Colab で「AudioLDM」による音楽生成を試したのでまとめました。
1. AudioLDM
「AudioLDM」は、テキストからサウンドエフェクト、人間の音声、音楽を生成するAIモデルです。
2. Colabでの実行
Google Colabでのセットアップの手順は、次のとおりです。
(1) 新規のColabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」を選択。
(2) パッケージのインストール。
# パッケージのインストール
!git clone https://github.com/haoheliu/AudioLDM.git
%cd AudioLDM
!pip install -e .
(3) ウェイトのダウンロード。
# ウェイトのダウンロード
!mkdir ckpt
!wget https://zenodo.org/record/7600541/files/audioldm-s-full?download=1 -O ckpt/audioldm-s-full.ckpt
(4) 推論の実行。
サウンドエフェクトを生成します。
# 推論の実行
!python scripts/text2sound.py -t "2 cats are fighting"
#AudioLDM を試す。 (画像は #memeplex )
— 布留川英一 / Hidekazu Furukawa (@npaka123) February 3, 2023
"2 cats are fighting"https://t.co/RtxwMBVgDB pic.twitter.com/UASzthDFRj
左端のフォルダアイコンのファイル一覧の「AudioLDM/output」からwavファイルをダウンロードできます。

text2sound.pyのパラメータは、次のとおりです。
-h, --help : ヘルプ
-t TEXT, --text TEXT : プロンプト
-s SAVE_PATH, --save_path SAVE_PATH : 出力フォルダのパス
-ckpt CKPT_PATH, --ckpt_path CKPT_PATH : チェックポイントのパス
-b BATCHSIZE, --batchsize BATCHSIZE : バッチサイズ
-gs GUIDANCE_SCALE, --guidance_scale GUIDANCE_SCALE : Guidance Scale (大:品質向上、小:多様性向上)
-dur DURATION, --duration DURATION : 時間
-n N_CANDIDATE_GEN_PER_TEXT, --n_candidate_gen_per_text N_CANDIDATE_GEN_PER_TEXT : 自動品質管理 (大:品質向上、小:計算軽)
--seed SEED : シード
(5) 推論の実行。
音楽を生成します。
# 推論の実行
!python scripts/text2sound.py -t "music made by 8bit NES"
#AudioLDM を試す。 (画像は #memeplex )
— 布留川英一 / Hidekazu Furukawa (@npaka123) February 3, 2023
"music made by 8bit NES"https://t.co/Hfob5iE6cb pic.twitter.com/mlRCK4PhvP