個人的な人力Vocaloidの作り方【無理せず自然な歌唱を】

2024年2月16日 21:28

はじめに

MPと言います。こんな動画を上げてます。

この記事では個人的な人力Vocaloidのやり方について、素材の準備からMIXまでの流れを紹介していきます。音楽用語や基本的なソフトの扱い方の解説は省き、手順とコツに絞って説明します。
私のやり方の大本はメカPの解説している方法です。未読の方やこれから人力を始めるという方はそちらの方にも目を通すと良いかと思います。

前提

切り貼り式のみの解説です。UTAU、なめうぇーぶ、AI歌唱については無知なので扱いません。

解説というより個人的な作り方や意識していることの紹介に近いです。

素材曲が潤沢に(約5曲以上)あることを前提としています。

そこそこのクオリティに達すること(自然に歌ってるように感じる)を目標としています。とりあえず歌詞通りに歌えれば良いと言う場合には過剰であり、逆にクオリティを限界まで高めて作りたいという場合には不十分なやり方かと思います。

解説に使用する動画

使用ソフト

メイン
・REAPER …(音並べ、MIX)　
・UVR …(アカペラ作成)
・Vocal Shifter LE …(ピッチ合わせ)
補助
・MUTANT …(音声のプレビュー再生ができるエクスプローラー)
・歌声りっぷ …(カラオケ差分でアカペラの作成ができる)
・音きりす …(左右の定位カット等)
・Wave Tone …(耳コピ用補助)

00.素材集め

Step1.音声分離

人力をやる上では

①歌わせる楽曲のインスト音源とボーカルのみの音源
②人力をするキャラクターのボーカルのみの音源

が必要になってきます。それらが手元にある場合は良いですが普通はないのでオリジナル音源から「インスト音源」と「ボーカル音源」に分離します。

ここで使用するソフトはUVR(Ultimate Vocal Remover)です。他にも様々な分離方法やソフトはありますが、現時点では最も精度が高いので「PCのスペック不足で動かない」とかでない限りこれを使いたいです。
ボーカル音源(アカペラ素材)のクオリティは完成形のクオリティに直結します。

使用するモデルは「MDX-Net」の「MDX23C-InstVoc HQ」です。左下のスパナのマークから「Download Center」に行くとダウンロードできます。
他では下記のモデルもおすすめですのでうまく分離できなかったら試してみてください。

「VR Architectureの 5_HP-Karaoke-UV」
「MDX-NetのUVR-MDX-NET Main」

上記のカレンダーガールの動画の制作時点では「MDX-NetのMDX23C-instVoc HQ」がなかったため「VR Architecture」の「 5_HP-Karaoke-UV」を使用しています。

カラオケ音源のあるものは
歌声りっぷで分離→分離されたボーカル音声をUVRで更に分離とするとよりきれいに抜ける場合があります。

リバーブの分離
先程述べた人力をする上で必要な音源である

①歌わせる楽曲のインスト音源とボーカルのみの音源
②人力をするキャラクターのボーカルのみの音源

のうち②はできればリバーブも除去されている方が望ましいです。
UVRではそれらの除去に特化した「VR Architecture」の「UVR-DeEcho-DeReverb」があります。先程分離したボーカルのみの音声に更にこれをかけて分離します。精度は以下の通りです。

以上が分離の手順です。
②人力をするキャラクターのボーカルのみの音源
については最低でも2～3曲、できれば5曲ほどは欲しいです。ここで妥協すると後々非常に苦労することになるのでなるべく多く自分の切り出せる限界までやるといいと思います。

また、曲選びでは歌わせたい曲に近いジャンル（雰囲気）の楽曲を選ぶことが重要です。今回は歌わせたい曲がカレンダーガールであり、イルミネの楽曲の中では「スマイルシンフォニア」が雰囲気が遠い楽曲、「トライアングル」や「We can go now!」が雰囲気が近く素材として適しているかと思います。（~~正直イルミネ楽曲は歌い方に大きな差がないのでそんな気にしなくていいかも~~）

違いが大きい例としては、「芹沢あさひ」の「Straylightの楽曲」とソロ曲である「星をめざして」などがあります。このような場合歌わせたい曲に近い方を選ぶことで自然な人力にぐっと近づきます。

Step2.音素の切り出し

それではアカペラ音源が出来上がったので音素を切り出していきます。

音素の数＝強さ　
です、頑張りましょう。

Reaperを起動し先程分離したボーカルのみの音声を並べます。
音素ごとに分割し逐一保存してライブラリを作っていきます。

・音素を切り抜く際は単独音しか切り抜いてないです。気まぐれで二重母音(ai ei等)を切り抜いたりしてますがほぼやってないです。

・偶に歌詞と異なったように聞こえる発音をしていることがありますが、そ　の場合は聞こえた音で名前をつけて保存しています。

例えば、芹沢あさひの「星をめざして」では「いつの日か必ず」の「【か】ならず」を「【と】ならず」と発音しているがこの場合【と】として扱う

・同じ音素でピッチが同じ音は省きましょう。1サビと2サビで同じ歌詞を繰り返していたり、「きらりきらり」など同じフレーズの繰り返しがある場合に全部切り抜かないように。

・複数人のキャラクターで同じ曲を切り抜く場合それぞれのボーカル音源を別トラック並べ、タイミングを合わせると二人目以降の作業が若干楽になります。

・このときにブレスも一緒に集めておくのを忘れずに。3,4個あれば事足ります

また、説明が難しいのですが、
「イルミネーションスターズの音素ライブラリを作るぞ！」となった時に切り抜く楽曲の順番を合わせて同じように音素を切り抜いていくとそれぞれのアイドルのライブラリがほぼ同じになるので後々の作業が楽になります。

(例)
「トライアングル」から切り抜くと決めた場合

音素「a」については
「a-1」は「明日のお天気も晴れだね」の「【あ】した」
「a-2」は「みんなで会える」の「【会】える」
「a-3」は「待ち合わせは何時だった」の「【合】わせ」

音素「i」については
「i-1」は「白い小鳥が歌っているみたい」の「白【い】」
「i-2」は「白い小鳥が歌っているみたい」の「歌って【い】る」
「i-3」は「白い小鳥が歌っているみたい」の「みた【い】」

というように音素の順番がイルミネ３人とも共通になります。

そして、今回の「カレンダーガール」で「なんてコトない毎日が」を3人に歌わせるとします。
真乃でピッチを合わせた結果、一番ピッチが近く適していた音素が

「na-5」「n-3」「te-12」「ko-4」「to-2」…

だったとします。

その場合、灯織とめぐるでも
「na-5」「n-3」「te-12」「ko-4」「to-2」…の音素を選択すればピッチが合いやすいということがわかります。

つまり、後述するピッチ合わせの時に音素の選択時間の短縮に繋がります。

もちろんそれぞれのキャラクターに使えない音があったりしてズレることはありますが近い番号を探せばいいため結構楽できます。

また、１つの音素につき5,6個のみ切り抜く場合は効果が薄いです。自分の場合は1音素につき大体10-30個(音素によっては50個近く)切り抜いたのでこれをやらないと結構ロスになっていたと思います。

今回の例のカレンダーガールのように、「ユニットで人力をしたい！」という方は是非やってみてください。
アイマスシリーズなど全体曲やユニット曲があるものだと最初にそれらを上記のように切り抜いてライブラリを作ると後々楽になると思います。
そんな大人数だったりユニットの人力はしないよって方は無視して大丈夫です。

01.ピッチ＆タイミング合わせ

準備

Reaperを起動しBPMを設定。その後、歌わせたい曲の「オリジナル音源」、「インスト音源」、「ボーカルのみの音源」をそれぞれ別トラックに並べタイミングを合わせます。これがメインのプロジェクトになります。
「ボーカルのみの音源」は音素を並べる際のガイドとして使用します。

次にVocal Shifterを起動し、歌わせたい曲のボーカルのみの音声を置きます。こちらではBPM設定などは不要です。

これで原曲の方の準備は終わりです。

本作業

一番長い時間やることになるメインの作業です。
私はまずVocalshifterで音素を１つ１つピッチ合わせを行い、１フレーズが終わったららそれを個別に出力。その後Reaperでタイミング合わせを行っています。

このようにしているのはタイミング合わせや音の引き伸ばしやカット、フェード等に代表される、ピッチ合わせ以外のすべての作業をReaperで行いたいからです。後述しますが母音と子音を結合する場合もそれぞれ別に保存してReaperで結合しています。そうする都合上1音1音が分割されていた方が都合がいいという理由です。

正直ピッチ合わせもRepaerでやりたいのですが、Vocal Shifterにはピッチの解析機能があり、耳コピの大部分をサボれると言うのが大きいです。(~~たまに間違ってるけど)~~
またVocal Shifterでピッチを変更したほうが綺麗な気がすると言う理由もあります。(~~恐らく気の所為~~)

もし耳コピに自信があれば全てReaperでやってもいいかと思います。Reaperでピッチを合わせる際は必ず「ピッチ変更モード」を「élastique 3.3.3 Soloist」にしてください。

Step1.ピッチ合わせ

Vocal Shifterでピッチを見ながら音素を並べていきます。
タイミング補正などはReaperでやるのでここではピッチのみを変更します

「前髪は決まらないし」の【ま】の部分。
奥に見える原曲のピッチに合わせて音素のピッチをいじる
（まれにピッチの解析が間違えっていることがあるので注意）

当たり前ですが、ここでなるべくピッチをいじらなくて済む音を選ぶことが大事です。(+-4度位が限度)
また、ピッチ補正をする際になるべくピッチカーブをいじらないほうがいいです。原曲のピッチカーブをコピペしたり、音程に合わせて真っ平らにすると違和感の原因になりますしそのキャラクターらしさも失われます。

またピッチカーブが平坦でない場合は母音の部分の方に合わせると上手く行きやすいです。
ピッチカーブのいじり方については不可逆褐色さんの解説がわかりやすいです。「Mutant」というエクスプローラーもどきのソフトについても解説してくれています。

１フレーズが終わったら一つ一つをwavで出力していきます。

私は下のように管理しています。

数字で名前をつけているのは同じ音素が一つのフレーズの中に複数あったときにわかりやすくするためです。
（例えば「あしたのわたし」というフレーズがあったときに「し」と「た」が2つあるため50音で名前をつけるときに「し１」「し２」などとやらなくてはいけないが数字だと1234567で良いので。(~~あと半角で打てるから楽~~）

今回の場合複数人で歌うパートが多いため、Vocal Shifterのプロジェクトファイルは最終的にこんなになります。

cメロあたりでアイテム数の上限(1024)に達したので2つ目のプロジェクトに
めちゃくちゃ重かった

Step2.タイミング合わせ

１フレーズが終わったら、タイミング合わせに移行します。
この作業はReaperで行います。
先程の準備した１フレーズの音素をプロジェクトに音を置きます。
それぞれのアイテムに「Ctrl+Shift+N」でノーマライズを行います。
あとはタイミングに合うように並べていきましょう。
このときに「①の歌わせたい曲のボーカルのみのトラック」と「②の並べたトラック」の波形が大体同じになるように調節します。(聞いてみて違和感なければ多少ズレていてもOKです。)

「前髪は決まらないし」①と②がほぼ一致なのでok
(まだこの頃は数字でなく50音で名前をつけてる)

音量の調整やフェードの調整もここで行います。
ブレスを入れたいのであれば置いておきましょう。

私はMIXをするときにAメロやサビなどのパートごとに別のエフェクトをかけたりしているのでトラックはかなり細かく分けていますが、ここは好みで良いと思います。
ただ、音を並べる際に２トラック使用する際には上に親のトラックを作ってそこにエフェクトを指したりそこからリバーブをセンドした方が視覚的にもスッキリして良いです。

また、必要に応じてピッチエンベロープを調整します。(象ちゃんですPの受け売り)

上記の流れを曲が終わるまで繰り返します。この作業が終わればもうほぼ完成です。お疲れ様でした。

02.よくある困りごと

ここまでの流れでよく遭遇する困りごとについて対処法とともに書いていきます。大切なのは聞いて違和感がなければ何してもOKだということです。

ケース1：ピッチの合う音がない

最頻出です。そして対処法も色々あります。

対処法1：別楽曲から探す。
シンプル。見つかればそのまま使えばいいが、そもそも5曲以上も取って見つからないということはレアな音と音程であるため大抵見つからない。

対処法2：別の音素で代用する
例えば「ら」に聞こえる「な」、「が」に聞こえる「か」など母音が同じ音素の中には似たような発音になるものがあります。聞いてみて違和感なければGOです。

対処法3：子音を削って代用する
「サ、ス、セ、ソ」　は子音を削ると　「タ、トゥ、テ、ト」になるなど、子音を削ることで別の音素に聞こえるものがあります。これについては２番Pのブログが大変参考になります。
（子音を）Cut. Cut. Cut.:人力ボカロのイロハの「ロ」 - ブロマガ

対処法4：子音結合
ピッチの合ってる母音と子音をそれぞれ繋げて一つの音素にします。
例えば下の部分では「Fu」と「e」を使って「フェ」を作っています。どこまで切るか、どのくらいフェードをつけるかは聞きながら微調整します。
そのためVocal shifter上では「Fe」と「e」はピッチ以外何もいじらずに出力し、Reaper上で調整しています。
一番良く使っている対処法はこれです

対処法5：諦めてめちゃくちゃピッチを上げ下げする。
子音も無い代用できる音も無いと、どうしようもないこともあります。そういう時は諦めましょう。案外ピッチをめちゃくちゃにしても上手く聞こえることもあります。
ただ最後の手段だと思ってください。

対処法6：セリフから取ってくる
THE 邪道。偶に奇跡的にうまくいくことがあるので探すのをやめられないが大抵上手く行かない。探すときも使えそうなものを手当り次第拾っていくというやり方になるのであらゆる面で闇の方術。

あくまで主観ですが上記の対処法は上から順番に良いものになりやすいです。とにかく聞いてみて違和感がなければOKなので色々と試してみるのをおすすめします。

ケース2：音の長さが足りない、逆に長過ぎる。

これもかなりの頻度であります。
長過ぎる場合はフェードアウトや中間部分のカット等で対処できますが、問題は足りないときです。

対処法1：引き伸ばす
シンプルですが限界があります。1.5倍くらいまでなら違和感なく行けますがそれでも足りない場合はやめておいたほうが無難です。もし違和感がなければ何倍でもGOです。

対処法2：別の母音を拾ってきてくっつける
先程の子音結合に近い考え方です。下の場合だと「Sa」のあとに長い「a」をくっつけてその後に「n」を置いています。
Vocal Shifterでピッチを合わせる時点で、明らかに長さが足りないなと思ったら予め長い発音の母音も拾ってきてピッチを合わせておきましょう。

「サーンシャーイン」の「サ」の部分
このあとの「シャー」も「shi」と「a」を結合しています

完成するとこうなります。

違和感なく繋げることが可能なのがメリットです。
「前にくる音素の母音」は残してフェードした方が綺麗になる場合と、カットしたほうが綺麗になる場合もあるので両方試してみてください。(上の例でいうと「Sa」の「a」をカット)
母音の部分は「Ta-」等の別の音素から子音をカットして母音だけ持ってくることも可能です。(上の例でも「shi」と「ta」を使って(sha)を作ってます。)
一番良く使っている対処法はこれです。
下の例では２箇所使っています

「おまたせ今日もよろし【くー】」と「駆け上がってい【こー】」
この２つは両方とも「前にくる音素の母音」をカットしてないです。

対処法3：母音ループ
やめたほうがいいです。(直球)
どうしようもない時~~やサボりたい時~~にやります。下の部分では「ma」の「a」の部分を何度もループさせて「まー」と聞こえるようにしています。メリットは他の音素を必要としないことですが、下の場合だと実際には「まーあーあーあーあー」というふうに聞こえるため、切れ目が不自然になってしまうというデメリットがあります。
ただ、最終的にインストの音源と合わせたり、３人で歌ったりハモったりすると埋もれるので案外わからなかったりします。ハッタリをかまそう。

真乃単体
これだけだと明らかにおかしいが、最終的には

ハモリを含めた人数とオケでよくわからなくなる。
ちゃんと意識して聞くとバレるのでなるべく「対処法2」の方を使いたい。

ケース3：滑らかに聞こえない、歌ってる感じがしない。

たまになる。上手く言語化できないけど何か自然じゃない感じ。

対処法1：タイミングを見直す
基本的にタイミングのズレが原因の場合が多い気がします。原曲のボーカルとちゃんと合ってるかを確認しましょう。サ行などは子音ではなく母音をタイミングに合わせたほうがうまくいきます。
それでも上手く行かない場合、極論ですが、違和感なく聞こえれば原曲のボーカルと違うタイミングで発声してもいいです。色々なパターンを試してみてください。

対処法2：音素を見直す
単体で聞いたらぴったり合ってるように感じたけれど、流れで聞くとおかしく感じる音素というのはあります。その場合その音だけもう一度違う音素でピッチ合わせをやり直して見ることをおすすめします。

対処法3：音素を伸ばしすぎ、圧縮しすぎ
音素をいじればいじるほど自然な歌唱から遠ざかります。音素は何倍にも圧縮するくらいならカットしてフェードで強引に処理したほうが聞こえはいいです。伸ばし過ぎの場合は先程「音の長さが足りない」の項目で述べた母音結合を試してみてください。

対処法4：抑揚を意識する
音のバランスはなるべくなら揃えるべきですが、原曲が抑揚を強くつけている場面ではこちらも同じように合わせたほうがいいです。
また、これは完全に感覚の話ですが、母音がa,u,oの音は大きく、i,eの音は小さく発音したほうが良い気がしてます。
原曲は元気に発音しているのに選んだ音素が控えめな発音だったなど、音量で解決できない場合は音素の見直しをしてみてください。

対処法5：フェードの調整
フェードのかけすぎ、かけなさすぎが原因のこともあります。なるべく原曲のボーカルと同じような波形になることを意識したほうが上手く行きやすいですが、あえて多く残したり、早めに切ったりした方がよく聞こえることもあります。

03.ハモリ作成

ハモリはどこまで凝るかによりますが私の場合、メインで作ったものをReaper上でコピー・アンド・ペースト、その後ピッチをReaper上でいじっています。拘っても聞いたときに差がわかりにくいのである程度サボっていい箇所かなとは思います。~~というよりハモリまで1から作ってたら死にます。~~

ただ、ピッチをまとめて＋-3や＋-5するのはやめたほうがいいです。頑張って耳コピしましょう。

このときに「音きりす」を使って原曲のボーカルから左右の定位のみを取得してハモリのみの音源を作るとガイドボーカルとして耳コピの助けになります。ですが、あまりうまく抜けないことが多いのであくまで参考までにして最後は自分の耳を信じたほうがいいです。
耳コピではWave toneがたまに役に立ちます。

04.MIX

正直良くわかってないです。

一応使用しているものを紹介しますが、自分よりもっと詳しく強い方がいると思うのでそういった方の解説も参考にしてみてください。

全てのトラックにかけているもの

Rea fir (イコライザー)…低音のカット
Spitfish (デュエッサー)…サ行などの歯擦音が消えるらしい(あまり実感できてません)
Buz Maxi3 (マキシマイザー)…音圧を上げる
KarmaFX Reverb (リバーブ)…音の広がり

リバーブについては別トラックに作ってセンドした方がいいです。
また、強いリバーブと弱いリバーブを２種類作っています。ハモリには強いリバーブをかけ、Aメロ等には弱いリバーブのみ、サビには両方をかけてます。

一部トラックのみにかけているもの

Vocal Doubler(iZotope) (ダブリング)…ハモリにかけて音を左右に広げます。
TAL-Chorus-LXなんかも同じように使えます。

Rea Delay(ディレイ)…遅れてくる音、これもハモリとかに。

ディレイもリバーブと同様に別トラックに作ってセンドで送ってます。

以上です。
原曲とのバランスはどちらかというと原曲を小さめでMIXしています。
ハモリは意識しないとあまりわからないくらいの大きさにして、メインメロディとかぶらないように左右に広げてます。

最初に述べたようにMIXは全然詳しくないので見様見真似で色々と試しながら調整しています。ただ、強引に色々とかけるよりはあまりいじらないほうが自然かなと感じてます。エフェクトをかけすぎておかしくなるよりはMIXがあまりされてない状態のほうが聞こえは良いので迷ったらかけない、もしくは知り合いに聞いてもらって判断するのがいいかなと思います。

MIXに限らず、何度も何度も同じ音声を聞いていると違和感や良し悪しがわからなくなってくるので、日にちを置いたり、再生プレイヤーを変えてみたり、他人に聞いてもらって判断をすることは結構大事です。

05.完成

これでFINISHです。お疲れ様でした。

06.終わりに

人力Vocaloidは地味な作業をひたすら続けるため根気がいります。さらに、時間をかければかけた分だけクオリティが上がるため、求める動画のクオリティによっては途方もない作業量になります。その一方でいわゆるセンスというものが不要であるため(替え歌やネタ系人力を除く)、ある意味平等なジャンルかなとも思います。

人力の手法は人によって様々であり本当に正解はありません。色々な人の方法を見て、一部分だけ取り入れたりしながら自分のやり方を見つけていくのがいいのかなと思います。
その上でこの記事が人力をする方にとって少しでも参考になれば幸いです。

最初にも書きましたが人力ボカロに正解はなく、全ての道が邪道です。

メカP 人力VOCALOIDの作り方メモ（切り貼り人力ボカロ用）より

⇧至言すぎ

質問、指摘、意見など、DMでもマシュマロでもお待ちしてます。
私も良い方法やテクニックがあれば知りたいのでそういうのも是非お願いします。

最後に、本記事の中で紹介できなかった記事を載せておきます。
自分が人力をやる上で参考にしたものです。

UTPMV.info【自己流】音MADの人力ボーカロイドの作り方(素材が豊富にある場合)

UTPMV.info AIボーカル除去・抽出ソフト「Ultimate Vocal Remover」の使い方と最良設定について

以上です。