見出し画像

【音源分離AIの最高峰】UVR5でボーカル抽出する最良の設定解説

割引あり

UVR5とは

Ultimate Vocal Removerの略で音源分離やボーカル抽出、ハモリ除去などを行うことができる無料のAIツールになっています✨
GPUが無くても使用できますが、NVIDIA製GPUがあると高速に精度の高い処理を行うことができます!
音声処理ツールの最高峰と呼ばれる、約20万円くらいする音声処理ソフトRX11 Advancedも使用しているのですが、こちらよりも分離性能だけで言えばUVR5が勝っています🔥

UVR5の使い方(version5.6)

はじめに

Select input : 分離したい音源をドラッグ&ドロップ、もしくは右のフォルダマークから直接選択します。
Select Output : 分離したデータを入れるフォルダを選択します。

WAV, FLAC, MP3から出力する音源のフォーマットを選択します


処理選択

CHOOSE PROCESS METHODからどの方式で処理するかを選択します。
ここでは主にVR ArchitectureとMDX-Netについて解説したいと思います。

VR Architecture:動作が軽くスペック控え目のPCでも処理が速いです。十分精度は高めです。

UVR5の基本的な音源分離アルゴリズム
一般的な用途に適しており、比較的高速に処理可能

MDX-Net:動作は重めですが、より自然に分離することができます。

より高度な深層学習モデルを使用
VR Architectureよりも高品質な分離が可能だが、処理時間が長い
特にボーカル分離に優れている

Demucs:ボーカル分離もできますが、楽器別に分離できるのが主な機能です。

Facebookが開発した音源分離モデル
複数の楽器パートを同時に分離できる
高品質な結果を得られるが、計算コストが高い


Ensemble Mode:この機能は慣れてきたら使用すると良いですが、使用しなくても問題ないです。

複数のモデルや手法を組み合わせて使用
より高品質な結果が得られる可能性があるが、処理時間が大幅に増加
個々のモデルの長所を活かしつつ、短所を補完することができる


Audio Tools:これは見て分からない人は使わなくて大丈夫です。

ピッチ変更、タイムストレッチ、ビット形式変更などが行える


パラメータ、モデル設定

処理方式によってパラメータの設定が異なります。

VR Architecture

Window Size小さいほど精度が高いです。320で良いでしょう。
Aggression Setting
・範囲は-100から100です。
・値が大きいほど、抽出が深くなります。
・通常、ボーカルと楽器については5に設定されています。
・非ボーカルモデルの場合、5を超える値は音を濁らせる可能性があります。
Choose VR Model:プルダウンよりDownload More Modelsを選択し、使用したいモデルをDLしてください。同じ名前のものはバージョンが新しいものを使用すれば大丈夫です。

・HP-UVR:曲からボーカルを除去することに特化したモデルです。
・HP-Vocal-UVR:曲からボーカルを分離することに特化したモデルです。ハモリは残ります。
・HP-Karaoke-UVR:曲からメインボーカールのみを分離することに特化したモデルです。ノイズやハモリをキレイに消せますが、音が籠ることがあります。
・UVR-DeEcho-DeReverb:曲からリバーブ成分(響いた感じ)を分離することに特化したモデルです。

GPU Conversion:GPU処理を行うかどうかの設定です。NVIDIA製GPUがある方は処理が速くなるので✅しておきましょう。
NVIDIA製GPUがない方は使用できません。


MDX-Net

Segment Size大きいほど精度が高くなりやすく処理が遅いです。GPUスペックに合わせて調整して下さい。
・小さいサイズはリソースの消費が少なくなります。
・大きいサイズはより多くのリソースを消費しますが、より良い結果が得られる可能性があります。
・デフォルトサイズは256です。選択したサイズに基づいて品質が変わる可能性があります。

OVERLAP: RTX4090で0.99設定で、2分の曲に対して処理時間約5分ほどでした。
・このオプションは予測ウィンドウ間のオーバーラップ量を制御します。
・より高い値でより良い結果が得られる可能性がありますが、処理時間が長くなります。
・Non-MDX23Cモデルの場合:0.001から0.999の間で選択できます。

Choose VR Model:MDX-Netに関してはモデルがかなりたくさんありますが、基本的には以下の2つのどちらかの使用でよいかと思います。

・UVR-MDX-NET inst HQ:曲からボーカルを分離することに特化したモデルです。ハモリは残ります。
・UVR-MDX-NET Karaoke:あまり精度が良くないので、ハモリを抜くならVR ArchitectureのKaraokeモデルを使用しましょう。
・MDX23C-instVoc HQ:さらに高品質なモデル。めちゃくちゃ処理が重いですが、ほぼ音楽が残らずキレイに分離できます。

GPU Conversion:GPU処理を行うかどうかの設定です。NVIDIA製GPUがある方は処理が速くなるので✅しておきましょう。
NVIDIA製GPUがない方は使用できません。

Windowsize320、Aggression Setting50でのGPU負荷はこのような形でした。VRAM8GB以上あれば問題ないかと思います。

おすすめモデルと設定

ハモリがあまりない楽曲

GPUあり
Method:MDX-Net
Segment Size:1024
Overlap:10
Model:MDX23C-InstVoc HQ

GPUなし
Method:VR Architecture
Window Size:320
Agression Setting:10
Mode::HP-Vocal-UVR

ハモリがそこそこある曲

Method:VR Architecture
Window Size:320
Agression Setting:10
Mode::HP-Karaoke-UVR


モデルや設定毎の精度比較

UVR-NET Inst HQ 4 Segment Size:4000 Overlap:0.99
無音部分の波がやや大きく、音楽が残ってしまっています。


MDX23C-InstVoc HQ Segment Size:1024 Overlap:10
無音部分は概ね整っていますが、やや膨らんでいるところがまばらにあります。


MDX23C-InstVoc HQ Segment Size:4000 Overlap:10
無音部分の波がキレイに整っていますが、やや膨らみがあります。


MDX23C-InstVoc HQ Segment Size:4000 Overlap:50
全体的にバランスよくボーカルが抜け、無音部分の波が更にキレイに整っています。


VR Architecture HP-Vocal-UVR Window Size:320 Aggression Setting:10
無音がきれいに抜けるのですが、高音の楽器が残ってしまうことが多いです。


VR Architecture HP-Karaoke-UVR Window Size:320 Aggression Setting:10
無音がきれいに抜け、ハモリやリバーブも抜けるのですが、やや抜きすぎてしまうことがあります。


処理速度、GPU負荷比較

検証スペック

CPU:Core i7 11700F 8コア 2.5GHz
GPU:RTX4090 VRAM24GB
使用した曲の長さ:1分34秒

Method:VR Architecture

Window Size:320 Agression Setting:50 Mode::HP-Karaoke-UVR
処理時間:14秒(GPUあり)

ここから先は

752字 / 14画像

この記事が気に入ったらサポートをしてみませんか?