【音源分離AIの最高峰】UVR5でボーカル抽出する最良の設定解説
UVR5とは
Ultimate Vocal Removerの略で音源分離やボーカル抽出、ハモリ除去などを行うことができる無料のAIツールになっています✨
GPUが無くても使用できますが、NVIDIA製GPUがあると高速に精度の高い処理を行うことができます!
音声処理ツールの最高峰と呼ばれる、約20万円くらいする音声処理ソフトRX11 Advancedも使用しているのですが、こちらよりも分離性能だけで言えばUVR5が勝っています🔥
UVR5の使い方(version5.6)
はじめに
Select input : 分離したい音源をドラッグ&ドロップ、もしくは右のフォルダマークから直接選択します。
Select Output : 分離したデータを入れるフォルダを選択します。
WAV, FLAC, MP3から出力する音源のフォーマットを選択します
処理選択
CHOOSE PROCESS METHODからどの方式で処理するかを選択します。
ここでは主にVR ArchitectureとMDX-Netについて解説したいと思います。
VR Architecture:動作が軽くスペック控え目のPCでも処理が速いです。十分精度は高めです。
MDX-Net:動作は重めですが、より自然に分離することができます。
Demucs:ボーカル分離もできますが、楽器別に分離できるのが主な機能です。
Ensemble Mode:この機能は慣れてきたら使用すると良いですが、使用しなくても問題ないです。
Audio Tools:これは見て分からない人は使わなくて大丈夫です。
パラメータ、モデル設定
処理方式によってパラメータの設定が異なります。
VR Architecture
Window Size:小さいほど精度が高いです。320で良いでしょう。
Aggression Setting:
・範囲は-100から100です。
・値が大きいほど、抽出が深くなります。
・通常、ボーカルと楽器については5に設定されています。
・非ボーカルモデルの場合、5を超える値は音を濁らせる可能性があります。
Choose VR Model:プルダウンよりDownload More Modelsを選択し、使用したいモデルをDLしてください。同じ名前のものはバージョンが新しいものを使用すれば大丈夫です。
GPU Conversion:GPU処理を行うかどうかの設定です。NVIDIA製GPUがある方は処理が速くなるので✅しておきましょう。
NVIDIA製GPUがない方は使用できません。
MDX-Net
Segment Size:大きいほど精度が高くなりやすく処理が遅いです。GPUスペックに合わせて調整して下さい。
・小さいサイズはリソースの消費が少なくなります。
・大きいサイズはより多くのリソースを消費しますが、より良い結果が得られる可能性があります。
・デフォルトサイズは256です。選択したサイズに基づいて品質が変わる可能性があります。
OVERLAP: RTX4090で0.99設定で、2分の曲に対して処理時間約5分ほどでした。
・このオプションは予測ウィンドウ間のオーバーラップ量を制御します。
・より高い値でより良い結果が得られる可能性がありますが、処理時間が長くなります。
・Non-MDX23Cモデルの場合:0.001から0.999の間で選択できます。
Choose VR Model:MDX-Netに関してはモデルがかなりたくさんありますが、基本的には以下の2つのどちらかの使用でよいかと思います。
GPU Conversion:GPU処理を行うかどうかの設定です。NVIDIA製GPUがある方は処理が速くなるので✅しておきましょう。
NVIDIA製GPUがない方は使用できません。
Windowsize320、Aggression Setting50でのGPU負荷はこのような形でした。VRAM8GB以上あれば問題ないかと思います。
おすすめモデルと設定
ハモリがあまりない楽曲
GPUあり
Method:MDX-Net
Segment Size:1024
Overlap:10
Model:MDX23C-InstVoc HQ
GPUなし
Method:VR Architecture
Window Size:320
Agression Setting:10
Mode::HP-Vocal-UVR
ハモリがそこそこある曲
Method:VR Architecture
Window Size:320
Agression Setting:10
Mode::HP-Karaoke-UVR
モデルや設定毎の精度比較
UVR-NET Inst HQ 4 Segment Size:4000 Overlap:0.99
無音部分の波がやや大きく、音楽が残ってしまっています。
MDX23C-InstVoc HQ Segment Size:1024 Overlap:10
無音部分は概ね整っていますが、やや膨らんでいるところがまばらにあります。
MDX23C-InstVoc HQ Segment Size:4000 Overlap:10
無音部分の波がキレイに整っていますが、やや膨らみがあります。
MDX23C-InstVoc HQ Segment Size:4000 Overlap:50
全体的にバランスよくボーカルが抜け、無音部分の波が更にキレイに整っています。
VR Architecture HP-Vocal-UVR Window Size:320 Aggression Setting:10
無音がきれいに抜けるのですが、高音の楽器が残ってしまうことが多いです。
VR Architecture HP-Karaoke-UVR Window Size:320 Aggression Setting:10
無音がきれいに抜け、ハモリやリバーブも抜けるのですが、やや抜きすぎてしまうことがあります。
処理速度、GPU負荷比較
検証スペック
Method:VR Architecture
ここから先は
この記事が気に入ったらサポートをしてみませんか?