ボカロ調声ってどうやって勉強すればいいの？

2023年9月29日 19:46

こんにちは。くろ州です。では解説始めます。

お前誰やねん（自己紹介）

調声をやっています。VOCALOID、UTAU、CeVIO、SynthV、NEUTRINOを始め30種類くらい対応できます。

これまでにCeVIO公式ライブ「ささら＆つづみ Winter ～1st duet～」や「結月ゆかり・紲星あかり誕生祭記念・公式生放送2022」「MIKUSPLOSION」などで一部の曲の調声を担当しているし、エーアイさんの「#アイボス生技術部」で調声講師もやったので、調声解説やっても許されるだろう。

調声がめちゃくちゃ上手いってことはないけど（上はいっぱいいる）、普通にできるべきことが普通にできるレベルの人間かなと自認している。これが案外できないと思うんだ。

調声ってどう勉強すればいいのか？

本記事の目的は「調声の勉強法を学ぶこと」であって、「調声テクを学ぶこと」ではないのに注意してほしい。この記事では「こうすると上手に聞こえるよ」とかそういう個別のテクニックについては触れない。「この動画を見ると調声を勉強できるよ」とかそういう話をしていく。

調声の構成要素

調声って、歌声合成ソフトをいろいろいじってボカロなどの歌をブラッシュアップする作業のことを言う。これを実現するには3つのスキルが必要だ。

1つ目は「操作力」。歌声合成ソフトを思い通りに操作する力。これがないと、頭の中でどんなに上手な完成イメージ歌唱を想像できてもそれを出力できない。

2つ目は「イメージ力」。頭の中で上手な完成イメージを想像する力。これがないと操作力があっても絶対に上手な歌声を作れない。だって上手な歌をイメージできてないんだもん。

3つ目は「リスニング力」。歌声を聞く力。これがないとそもそも上手な歌を知ることができない。上手な完成イメージを想像しようにも歌をまともに聞いたことがないならイメージできるわけない。

ついでに言うと、リスニング力がないと自分で作ったボカロの歌声が上手いのかも判断できない。だって聞けないんだもん。たまにオケとボーカルのキーがずれてひどいことになってる動画とかあるけど、多分あれはリスニング力の欠如が原因。

ゲームが好きな人なら「プレイスキル」「スキル回しとか装備とかを自分で考える力」「実践動画を見て分析する力」と考えると分かりやすい？

絵を描ける人なら「CLIP STUDIOの使い方」「自分で題材と画面を考える力」「モデルの観察力」かな。

そう考えると当たり前かもしれない。

でも、世の中にある「調声講座」みたいな記事や動画って大体「操作力」の解説な印象がある。調声上手くなりたい人も、知りたいことって「どうやってノートやピッチを描けば上手く聞こえるか」だと思うし。

でもそれは3つある調声の構成要素の1つでしかない。それは「CLIP STUDIOの使い方」を学んでデッサンも画面の作り方も学ばないようなもの。当然それだけでは作品を作れない。だけどこれ、結構ハマりやすい罠。

歌声、普通の人間は割と聞いてない

前置きがクソ長くなったが、ここからようやく本題。まずはリスニング力から。

普通の人間は日々いろんな曲を聞いてると思うが、普通の人間は歌声を細かく聞いたりしない。

「Aさんはラ行の子音がLになりがち」「声優さんは超高確率で語尾に吸気音を挟む」「可愛い系の人は無声子音の直後しばらくかなり息っぽい声にしている」「ドラムのアクセントに併せて子音を長く発生している」「Bさんは高音で喉をかなり締めてる」「声優さんは母音が連続するとき高確率で声門を閉じてる」「Cさんは音量ビブラートを使わないがち」「最近はやりのシンガーはピッチを上から入って早めに下に抜きがち」……

そんなのは普通聞いてない。これを聞くようにするとそれを再現する下地を作れる。何を聞くかは自由。人間の歌でもボカロ曲でもなんでもいいけど、自分が上手いと思った曲のボーカルを詳細に聞くのがいい。

とはいえ、音というのは「知らないと認識できない」ものでもある。ベーシストは音楽を聴くだけでベースの音が聞こえるけど、ベース全く知らない人は普通ベースの音が聞こえていても認識できてない。最近聞いた曲のベース思い出せる？　多分多くの人は思い出せない。

歌声を抜き出して聞いてみる

ボーカルは音楽の一部なので、全ての音と合わせて、その中でどうやって鳴ってるかを聞くのが大事なのは確かなんだけど、それはかなり難しい。

ので、最初はボーカルを抜き出して単体で聞いてみるのがいい。

ボーカル抜き出しツールは何でもいいんだけど、私は「Virtual DJ」というソフトを使っている。これはDJができるツールなんだけど、ボーカル抜き出し機能がついてる。

音声をD&Dで読み込ませて、(Acapella)ボタンを押すだけでボーカルを抜き出せる。超楽。音質はそんなに良くないけど、まぁいったん十分。そのうち抜き出さなくても聞けるようになるだろうし。

歌声の聞きどころ

じゃあ、何を聞けばいいかというと、ざっくり「ピッチ」「声色」「音素」くらいでOK。

「ピッチ」は簡単。音の高さのこと。絶対音感や相対音感はいらない。一つ一つの音を「音の初めの部分」「音の真ん中の部分」「音の最後の部分」に分けて聞くのがポイント。

その音がソの音なのかラの音かは分からなくてもいいけど、「上中下どこから入って、真ん中がどんな状態で、上中下どこに抜けるか」だけ聞けばいい。

例えば、歌のテクニックの一つに「しゃくりあげ」ってあるけど、あれは「下から入ってる」状態だよね。ビブラートは「真ん中のピッチが揺れてる」状態だし、声優さんやアイドルは「上に抜く」ことが多い。

この聞き方を続けているうちにだんだん細かく聞こえるようになってきて、多分最終的には「上から入っていったん下にステイして短めのしゃくりを作りつつ、急激に目標の音程に当てて、ビブラートはかけず、若干下にずらした後で上に抜けてるのか～～」みたいな解像度になるだろう。

「声色」はそのまま。同じ人間でも一音一音声色が違う。最初は「強いか弱いか」だけ聞ければOK。「高音に行くほど力がこもっていくから聞いててテンション上がるんだな」とか「低音でささやくからかっこいいんだな」とかそういう気づきがあればOK。

慣れてくると、「鼻に息が抜けている声」「喉が締まっている」「のどぼとけが下がってる」「ほぼ息しか鳴ってない」とかも聞こえるようになると思う。

「音素」は、どんな子音・母音が発音されているかということ。「この曲のこの部分、歌詞では「あした」ってあるけど、よく聞いたら[u a sh t a]みたいになってるな」とか。

活舌が甘い人は子音が抜け落ちたりするし、音符の数に対して歌詞が多すぎるときは母音が抜け落ちたりする。母音はたまに発音があいまいになって「う」と「え」の間みたいな音に変わってたりする。そういうのを聞く。

それができるようになったら、それぞれの音素がどれくらいの長さで発音されているかを聞いてみる。「バター」なのか「バッタ」なのかって、音素はざっくり[b a t a]なんだけど、前者は最後のaが長いし、後者はtの直前のタメが長い。

そうやって意味が変わるレベルの物もあれば、意味は変わらないけど、背景のリズム隊に合わせるために長さを調整してることもある。めっちゃ音楽って感じだ。

その中でも重要なのが「母音のつなげ方」。これはできるだけ早いうちから聞けるようになってほしい。

例えば「○○していた」みたいな歌詞があったときに、「てい」のところでは[t e i]という風に母音Eと母音Iが並んでいる。このように母音が連続するときにはいろんな種類のつなぎ方がある。EとIがなめらかにつながっている場合、EとIの間に完ぺきな無音が挟まっている場合などがあって、とりあえず「つながってるかつながってないか」だけは聞き取れるようになっているのがいいと思う。

これができないと、たとえばVOCALOIDユーザーの場合、母音を適切に切らないせいでフレーズが区切れることなくずっと続いちゃって、音楽としてあほみたいに間延びして聞こえたりする。これは初心者あるある。（逆にCeVIO AIとかNEUTRINOユーザーだと全部切れちゃってクソ聞きにくくなるって言うのが初心者あるある）。

この「母音はなめらかにつながらないこともある」ことに気付いたとき、調声力が一気に上がるんだ。

上手な歌声をイメージする

ボーカルを聞けるようになると、「上手な歌の傾向」がつかめてくる。例えば「リズムに合わせて子音の長さと声色の強さを揺らしている」とか「上から入って早めに下に抜けがち」とか、そういうのが知見としてたまっていく。（そういう知見を獲得した瞬間に自分の成長を感じると思う）

その知見を基に自分で歌ってみるんだ。何でもいいから歌ってみたい曲を用意して、それをオケとか聞かずにゆっっっっっっくり一人で歌ってみる。歌ってみた動画を作るわけじゃないから、テンポとか発声とか活舌とか音程とかは気にしなくていい。

ゆっっっっっっくり歌いながらピッチの動きや音素を再現してみる。これをリアルタイムに素早くできる人間は調声やってる場合じゃない。歌手になれ。歌手になるわけじゃないから、ゆっくりやってもいいんだ。

でも、実際に声に出そうと思うと、声帯と喉のコントロール力が必要だからどうしても再現できない人もいるかもしれない。そういう人は脳内で歌うだけでいい。それが「イメージ力」だから。

なお、すでにソフトの操作が身についている人ならソフト上で再現して遊ぶのもいいと思う。

操作力は解説動画を見ろ

上手い歌を脳内で再現できるようになったら、それを歌声合成ソフト上で実装してやれば神調教完成だ。後必要なのはイメージを実体化させるスキルだけ。

これは最初に言ったようにネット上にあほほど転がっている。検索しろ。

本屋の音楽棚かPC棚にも「VOCALOID調声のコツ」的な本が置いてあると思うし、それを読んでもいいと思うぞ。

ここで重要なのは「自分が使うソフトの解説を見ること」だ。当たり前に聞こえるでしょ？　でもこれ案外できない人が多い。

歌声合成ソフトの操作方法は他のソフトでも応用が利くけど、応用が利くだけで同じ方法で実装するのは無理なことが多い。

例えば、VOCALOIDではピッチを操作するのに「ノート分割」ってテクニックを使うんだけど、これをCeVIO AIでやると高確率で歌声が破綻する。

仕組みが違うソフトなんだから当たり前なんだけど、これ2個目のソフトに手を出す人は特に引っかかりがち。1個目のソフトで身に着けたテクニックが2個目のソフトで通用しなくて「このソフト苦手だな」って印象を抱くことになる。違うソフトなんだから違うテクニックが必要なんだ。

だから、しばらくは自分が使うソフトの解説を見るのが重要。

でも世の中には自分が使ってないソフトの解説動画がめちゃくちゃいいテクニックを紹介していることもままある。そういう動画からテクニックを学ぶこともできるんだけど、そういうときは「ソフトの操作テクニックを学ぼう」として挑むんじゃなくて、「イメージ力を学ぼう」として挑むのがいい。

操作力はソフトごとに異なるが、その裏にはこれまでに解説してきたイメージ力が隠れている。で、良質な解説動画から学べるのは表面的な操作方法ではなくてイメージ力が良質なことが多いんだ。「めちゃくちゃいいテクニック」に見えるかもしれないけど、めちゃくちゃいいのはその裏のノウハウなんだ。

だから、その隠れているイメージ力の方を読み取って、それを自分が使っているソフトでどうやって実装するかは自分で考えるしかない。

模写は大事

イラストの練習においては「模写が大事」みたいな話を聞くけど、これは調声においても重要。これはつまり「カバー曲を作れ」という話。公開しなくてもいいけど、カバー曲を作る一連の作業はここまで説明してきたすべての力を鍛えるのにちょうどいい。

カバーしたい曲を用意して、そのボーカルをできるだけ正確に再現する。やることはそれだけ。

正確に再現するには聞かないといけないからリスニング力がつくし、それに伴ってイメージ力も上がるし、それを実装するテクニックも身につく。

でも重要なのは再現することじゃない。理由を考察することが大事。

模写をする中で「ここはリズムに合わせているんだな」とか「ここは盛り上がりを作るためにピッチをはねさせてるんだろうな」とか「ここの音ってもしかしてこうやって実装すればいいんじゃないの？」とか。

一番重要なのはイメージ力だから「こういうときはこうするのがいいっぽい」っていう知見を模写の中で学ぶんだ。