ULTIMATE VOCAL REMOVERのボーカル分離に感動した話
先日、オープンソースのspleeterを試したのだが、SpleeterよりもULTIMATE VOCAL REMOVERの方が精度がよいと感じたので記事にする。結論から言えば、自分の中では感動するレベルの結果が得られた
前提
下記の環境で実行した、GPUを使う処理も選択できるがCPUで処理させている。選択する処理によってはCPUは100%に達する可能性もある。メモリは10GB程度は使用していた。高負荷が掛かるので注意が必要である。また、選択する処理によってはとても時間が掛かる(30分~1時間程度は掛かった)ので、何か別のことをしながらするのがおすすめである。
Windows 11 Pro
CPU 3.6Ghz ( AMD Ryzen 5)
メモリ 32GB
GPU 4GB (NVIDIA GTX 1630)
製品
オープンソースで公開しているのがすごい。githubを見ると914Kダウンロードとあるのでプロジェクトの人気が伺える
website
GitHub
ダウンロード
GitHubのReleaseページからダウンロード、もしくはTopページにダウンロードリンクできるのでダウンロードする
UVR v5.6.0をクリックする。インストーラのファイルサイズは1.6GBあるのでPCの空き領域は十分にあることを確認しておく
使用
一旦、自分が試してみてよかったセッティングを元に書いていく
モデルのダウンロード
起動時に左下のレンチマークからダウンロードメニューを開く
Additional Settingsにて、VR Archのラジオボタンにチェックを入れる
ダウンロードボタンをクリックすると、UVRがインストールされたディレクトリに格納される
設定
SELECT INPUTのフォルダアイコンより入力ソースの選択をする
SELECT OUTPUTのフォルダアイコンより抽出データの格納ディレクトリを選択する
CHOOSE PROCESS METHODでVR Architectureを選択する
MP3を選択する
Start Processingで実行する
活用を考える
このソフトウェアはボーカルリムーバーではあるが、主題となる使い方以外のことも出来ると考えている
何となくメニューを見てみると、DemucsにはVocal、Other、Bass、Drumsに分離できるので歌う人のためのカラオケはもちろんだが、使い方によってはOtherに含まれるギター(+キーボードなど他楽器)を抜いて、ギターの練習ができるのではないか?何かしら音源を用意すれば、他のパートはプロの演奏であり、自分のギターの演奏は自分次第って状況が作り出せて、所謂、弾いてみたにある様な自分の担当するギターパートの音源を重ねて弾くと、自分が弾けているのか、元々の音源のおかげでよく聴こえるのかという混乱から解放されるのではないかと期待している。つまり、取り組みが実践的になるのではないかと期待している。また、好きなバンドの曲であれば、憧れのバンドメンバーと弾けている謎の高揚感も味わえるだろう。もちろん、自分の弾けなさが露呈することも多いにあるのだけど。バンドをしている感は得られるかもしれない。なお、Demucsは非常に変換に時間が掛かるので別な作業をしながらの変換がよい。特別、分離する予定がなければ無理にしなくてもよい
Ensemble Modeでは、何かとそれ以外という形で抜くことが出来るので、前述の通り、OTHERとNO OTHERで抜いてみた。なお、Demucsのモデルを使ったせいか、Demucsよりも更に時間が掛かり1時間程度は掛かったんじゃないかと思う。
OTHERだけ抽出することで、前述の通りの自分の担当したいパートの練習が出来るのではないかと期待している。実体験ではあるが興味深かったことは音を分離することにより聞き取れていなかったフレーズが聞き取れたこともよかった
更に活用の幅としては、audio to midiの分野でも音源のパートを絞ることが出来るので、例えば、ボーカルだけ抽出してmidi化してみることで効率よくメロディをmidiに出来るのではないか、ギターでメロディが弾きたければ、スコアメーカーZERO等で整形したmidiを読み取ってTABに変換できたのではないかと記憶しているので、活用の幅が広がるのではないかと期待している※なお、スコアメーカZEROのライセンス体系が変更されたと聞いているので、現体系で出来るかは試せてはいない。
参考
かなり詳しく書かれているので参考にするとよい
おわり!