【音源分離AIの最高峰】UVR５でボーカル抽出する最良の設定解説

割引あり

2024年7月20日 02:30

UVR5とは

Ultimate Vocal Removerの略で音源分離やボーカル抽出、ハモリ除去などを行うことができる無料のAIツールになっています✨
GPUが無くても使用できますが、NVIDIA製GPUがあると高速に精度の高い処理を行うことができます！
音声処理ツールの最高峰と呼ばれる、約２０万円くらいする音声処理ソフトRX11 Advancedも使用しているのですが、こちらよりも分離性能だけで言えばUVR5が勝っています🔥

UVR5の使い方（version5.6）

はじめに

Select input : 分離したい音源をドラッグ＆ドロップ、もしくは右のフォルダマークから直接選択します。
Select Output : 分離したデータを入れるフォルダを選択します。

WAV, FLAC, MP3から出力する音源のフォーマットを選択します

処理選択

CHOOSE PROCESS METHODからどの方式で処理するかを選択します。
ここでは主にVR ArchitectureとMDX-Netについて解説したいと思います。

VR Architecture：動作が軽くスペック控え目のPCでも処理が速いです。十分精度は高めです。

UVR5の基本的な音源分離アルゴリズム
一般的な用途に適しており、比較的高速に処理可能

MDX-Net：動作は重めですが、より自然に分離することができます。

より高度な深層学習モデルを使用
VR Architectureよりも高品質な分離が可能だが、処理時間が長い
特にボーカル分離に優れている

Demucs：ボーカル分離もできますが、楽器別に分離できるのが主な機能です。

Facebookが開発した音源分離モデル
複数の楽器パートを同時に分離できる
高品質な結果を得られるが、計算コストが高い

Ensemble Mode：この機能は慣れてきたら使用すると良いですが、使用しなくても問題ないです。

複数のモデルや手法を組み合わせて使用
より高品質な結果が得られる可能性があるが、処理時間が大幅に増加
個々のモデルの長所を活かしつつ、短所を補完することができる

Audio Tools：これは見て分からない人は使わなくて大丈夫です。

ピッチ変更、タイムストレッチ、ビット形式変更などが行える

パラメータ、モデル設定

処理方式によってパラメータの設定が異なります。

VR Architecture

Window Size：小さいほど精度が高いです。320で良いでしょう。
Aggression Setting：
・範囲は-100から100です。
・値が大きいほど、抽出が深くなります。
・通常、ボーカルと楽器については5に設定されています。
・非ボーカルモデルの場合、5を超える値は音を濁らせる可能性があります。
Choose VR Model：プルダウンよりDownload More Modelsを選択し、使用したいモデルをDLしてください。同じ名前のものはバージョンが新しいものを使用すれば大丈夫です。

・HP-UVR：曲からボーカルを除去することに特化したモデルです。
・HP-Vocal-UVR：曲からボーカルを分離することに特化したモデルです。ハモリは残ります。
・HP-Karaoke-UVR：曲からメインボーカールのみを分離することに特化したモデルです。ノイズやハモリをキレイに消せますが、音が籠ることがあります。
・UVR-DeEcho-DeReverb：曲からリバーブ成分（響いた感じ）を分離することに特化したモデルです。

GPU Conversion：GPU処理を行うかどうかの設定です。NVIDIA製GPUがある方は処理が速くなるので✅しておきましょう。
NVIDIA製GPUがない方は使用できません。

MDX-Net

Segment Size：大きいほど精度が高くなりやすく処理が遅いです。GPUスペックに合わせて調整して下さい。
・小さいサイズはリソースの消費が少なくなります。
・大きいサイズはより多くのリソースを消費しますが、より良い結果が得られる可能性があります。
・デフォルトサイズは256です。選択したサイズに基づいて品質が変わる可能性があります。

OVERLAP： RTX4090で0.99設定で、2分の曲に対して処理時間約５分ほどでした。
・このオプションは予測ウィンドウ間のオーバーラップ量を制御します。
・より高い値でより良い結果が得られる可能性がありますが、処理時間が長くなります。
・Non-MDX23Cモデルの場合：0.001から0.999の間で選択できます。

Choose VR Model：MDX-Netに関してはモデルがかなりたくさんありますが、基本的には以下の２つのどちらかの使用でよいかと思います。

・UVR-MDX-NET inst HQ：曲からボーカルを分離することに特化したモデルです。ハモリは残ります。
・UVR-MDX-NET Karaoke：あまり精度が良くないので、ハモリを抜くならVR ArchitectureのKaraokeモデルを使用しましょう。
・MDX23C-instVoc HQ：さらに高品質なモデル。めちゃくちゃ処理が重いですが、ほぼ音楽が残らずキレイに分離できます。

GPU Conversion：GPU処理を行うかどうかの設定です。NVIDIA製GPUがある方は処理が速くなるので✅しておきましょう。
NVIDIA製GPUがない方は使用できません。

Windowsize320、Aggression Setting50でのGPU負荷はこのような形でした。VRAM8GB以上あれば問題ないかと思います。

モデルや設定毎の精度比較

#UVR によるボーカル抽出のモデルや設定毎の比較 #AI pic.twitter.com/P5gd0okzfX
— みどりん(midorin)@AIコンテンツクリエイター&立体音響 (@seal309midorin) July 19, 2024

UVR-NET Inst HQ 4　Segment Size：4000　Overlap：0.99
無音部分の波がやや大きく、音楽が残ってしまっています。

MDX23C-InstVoc HQ　Segment Size：1024　Overlap：10
無音部分は概ね整っていますが、やや膨らんでいるところがまばらにあります。

MDX23C-InstVoc HQ　Segment Size：4000　Overlap：10
無音部分の波がキレイに整っていますが、やや膨らみがあります。

MDX23C-InstVoc HQ　Segment Size：4000　Overlap：50
全体的にバランスよくボーカルが抜け、無音部分の波が更にキレイに整っています。

VR Architecture HP-Vocal-UVR Window Size：320 Aggression Setting：10
無音がきれいに抜けるのですが、高音の楽器が残ってしまうことが多いです。

VR Architecture HP-Karaoke-UVR Window Size：320 Aggression Setting：10
無音がきれいに抜け、ハモリやリバーブも抜けるのですが、やや抜きすぎてしまうことがあります。

処理速度、GPU負荷比較

検証スペック

CPU：Core i7 11700F 8コア 2.5GHz
GPU：RTX4090 VRAM24GB
使用した曲の長さ：1分34秒

Method：VR Architecture

Window Size：320　Agression Setting：50　Mode:：HP-Karaoke-UVR
処理時間：14秒（GPUあり）

ここから先は

752字 / 14画像

ログイン

この記事が気に入ったらサポートをしてみませんか？