#5 VX-βにおけるノート分割考
VX-βにおけるノート分割(※)について考えます。
VX-βでもノート分割による調声は可能ですが、VOCALOIDにおけるノート分割に比べると自由度はいくらか下がります。
1. VX-βにおけるノート分割の基本的な考え方
VX-βでのノート分割は、VOCALOIDとは少し違ったアプローチで考える必要があります。
1) AI歌声合成は歌唱譜が基準となる
VX-βは、読み込まれたシーケンス・データをもとに、人間らしいピッチ変化を伴った歌声を合成します。
ただし、VX-βが想定しているシーケンス・データは、巷に流布している一般的な歌唱譜をMIDIデータに変換したものです。
AIによる歌声合成とはある意味、記譜上の理論的に精確なピッチとその記譜に基づいて人間が歌った歌声のピッチとの差分を学習し、その差分の学習から未知の歌唱譜に対する人間的なピッチ遷移を推測しているとも言えます。
歌手が歌唱譜から歌を紡ぐように、VX-βも歌唱譜(に基づいて作成されたシーケンス・データ)から歌声を合成します。
2) VX-βでは避けたほうがよいノート分割
そのような背景を考えるに、VX-βでは、一般的な記譜から外れるようなノート分割は、うまく機能しないように思われますし、実際、うまく機能しません。
たとえば、下図のような激しいノート分割は、VX-βではうまく機能しません。
特に、下記のノート分割は、うまく機能しないので避けたほうがよいです。
・広い音程のすばやい跳躍を伴うノート分割
例)「声の裏返り」を表現するために、ノート先頭を短いノートで分割してオクターブ上のピッチを割り当てる。ノート末尾を短いノートで分割してオクターブ上のピッチを割り当て次のノートに続ける(下図・左)。
・ノート分割によるビブラート
例)細かなノート分割を並べて任意のビブラートをつくる(下図・右)。
3) VX-βでも機能するノート分割
VX-βでもそれなりに機能するのは、下記のようなノート分割です。
・一般的な歌唱譜にも記載されるノート分割(メリスマ)
歌唱譜上に現れるメリスマのたぐいは、おおむねうまく機能します。
・狭い音程(半音〜1音程度)のノート分割
狭い音程(半音〜1音程度)でのノート分割は、VX-βでもそれなりに有効なようです。
特に、ノート頭を分割して半音〜1音下のピッチを割り当てると、ノート分割した箇所に(ピッチによる)アクセントをつけることができます。
2. ノート先頭のノート分割で文節を区切る
文節の先頭となるノート先頭を短いノートで分割して半音〜1音下のピッチを割り当てると、文節の区切りが明瞭な歌声になります。
(「なにをゆっているのかわかんないぜ」「おっしゃる通りその通り」)
以下、具体例を挙げながら説明を試みます。
1) ぎなた文を考える
文節とは、文を細分化するときに、意味として汲み取れる最小単位のもののことです。
わかりやすい例として「ぎなた文」のノート分割を考えます。
「ぎなた文」とは、文節をどこで区切るのかによって意味が変わってしまう文のことです。
たとえば、次の「ぎなた文」は、文節の区切り方によって意味が変わってきます。
「きょうふのみそしる」
・恐怖の味噌汁: 「きょうふの」「みそしる」の2文節
・今日麩の味噌汁: 「きょう」「ふの」「みそしる」の3文節
2) ぎなた文の歌唱譜
「きょうふのみそしる」を歌詞とする次のような歌唱譜を考えます。
このような歌唱譜の場合、歌唱譜のままのシーケンス・データを作成しても、合成される歌声に区別はなく「キョーフノミソシル」と3回歌うことになります。
3) ぎなた文を歌わせる
そこで、上記の歌唱譜に対して、下図のようなシーケンス・データを作成します。
やっていることは単純で、文節の先頭となるノート先頭を16分音符で分割し、半音下のピッチに割り当てているだけです。
これをVX-βに読み込ませて歌わせると、次のような歌声が合成されます。
「キョーフノミソシル」「恐怖の味噌汁」「今日、麩の味噌汁」を微妙に歌いわけているのがわかるかと思います。
4) ノート分割で文節を区切る
以上のことを応用すると、ノート分割で文節の区切れを作ることができます。
文節の区切れが明瞭になると、歌詞の聴き取りやすさがぐっと上がります。
下記のシーケンス・データは2回同じメロディを繰り返しますが、前半は文節の区切れとなる箇所にノート分割を適用せず、後半は適用しています。
VX-βで歌わせたもの(ボイスバンク:prtv_0 設定:デフォルト値)。
5) ノート分割で文節が区切れる原理の仮説
ノート分割で文節を区切ることはVOCALOIDの調声にも使えます。
というよりもVOCALOIDでのノウハウをVX-βに応用しただけのことです。
とはいえ、なぜ、ノート分割すると文節が区切れるのかについては教科書的な答えはないように思えます。
以下、私なりの仮説を蛇足ながら記しておきます。
人間は、歌詞の意味を十分に理解した上で、文節のまとまりを意識して歌います。
複数の文節を一息に歌うとしても、歌手は無意識のうちに、文節の区切れとなる箇所にわずかな間(ま)を作ろうとします。
そのわずかな間(ま)は、息の流れや声帯の緊張をわずかに緩めることによって作られるので、結果的にその瞬間のピッチはわずかに下がったものになります。
聴衆の側もまた歌声のわずかなピッチ変化を無意識のうちに捉え、そこに文節の区切れを感じているように思われます。
歌手も聴衆も無意識のうちに歌い/聴いているという点がポイントで、文節が区切れているか/いないかは感覚的にはわかるものの、その原理については考えません。
なので、文節がうまく区切れていない歌唱に対しては、「なにか変な歌声」「機械的な歌声」「歌詞の意味を理解していない人が歌ったかのような歌声」といった違和感として理解されます。
3. 次のノートのピッチを先取りする
ノート末尾をノート分割して、次のノートのピッチを先取りすることについて考えます。
1) 民謡的な歌唱法
「次のノートのピッチを先取り(以降、「ピッチの先取り」という)」する歌い方は民謡的な歌唱法でよくあります。
とはいえ、どういうことを言っているのかよくわからないと思いますので、具体的な譜例を示します。
1段目は『Amazing Grace』、2段目は『江戸の子守唄』の冒頭部分ですが、上段には一般的な「記譜」を、下段には実際の歌唱をやや厳密に「採譜」した例を示しています。
ここで言う「ピッチの先取り」とは、「採譜」の段の赤で囲った部分のような歌い方のことです。
これらの箇所では、音符の後半でメリスマが生じ、次の音符のピッチを先取りして歌っています。
このような「ピッチの先取り」は、記譜には明示されないことが多く、「ピッチの先取り」をするかしないかは歌手の裁量によるところが大きいです。
なので、「ピッチの先取り」をする歌手もいれば、しない歌手もいますし、「ピッチの先取り」を好む聴衆もいれば、好まない聴衆もいるとも言えます。
「ピッチの先取り」は、特にペンタトニック(5音音階)のメロディを歌うときに生じやすいようで、主に下降形のフレーズで生じやすく、『Amazing Grace』のように上昇形でも生じるのは珍しいのかもしれません。
2) VX-βでの入力方法
VX-βで、上記のような「ピッチの先取り」を伴う歌唱をさせたいときは、上図の「採譜」で示したような楽譜に基づいてノートと歌詞を入力します。
ノート分割するノート長は、必ずしも「採譜」で示したような8分音符でクオンタイズされたものでなくてもかまいません。
下記のシーケンス・データは「江戸の子守唄」を2回繰り返しますが、前半は「ピッチの先取り」をせず、後半は「ピッチの先取り」をしています。
VX-βで歌わせたもの(ボイスバンク:prtv_1 設定:デフォルト値)。
3) 日本の伝統的な歌唱法での「ピッチの先取り」考
日本の伝統的な歌唱法、つまり、民謡での「ピッチの先取り」には、どうやら法則性があるように私には思えます。
その法則とは、おおむね次の2点です。
・「ピッチの先取り」は下降形でのみ生じる。
・「ピッチの先取り」が生じる箇所は、歌詞の文節が区切られる直前の1つ前の音符に限られる。
たとえば、「江戸の子守唄」の歌詞の文節は「ねんねんころりよ」「おころりよ」の2つに区切られます。
「ピッチの先取り」が生じるのは、文節が区切られる直前の「ねんねんころりーよ」「おころりーよ」(※)の箇所です。
逆の言い方をすると「ピッチの先取り」を伴う下降形は、次の音節で文節が区切れることを示唆することにもなります。
この考え方を踏まえた上で、文節に基づいて「ピッチの先取り」を機械的に行うと次のようになります。
VX-βで歌わせたもの(ボイスバンク:prtv_0 設定:デフォルト値)。
4) ノート末尾でのノート分割の注意点(子音の発音)
ノート末尾でのノート分割は、次のノートの歌詞が「子音+母音」のときは(※)、十分な長さのノート長で分割する必要があります。
歌唱における記譜(またはノート・データ)が示している拍節上のタイミングは、母音が発せられるタイミングです(下図を参照)。
なので、「子音+母音」を歌うときの子音は、母音よりも前(ノート・データの配置された位置よりも前)に発音されます。
つまり、子音を発音し始めるタイミングは、直前のノートの末尾に食い込んでいることになります。
しかし、VX-βが子音を正しく発音するには、ある一定の時間的長さが必要です。
子音を含むノートの直前に短いノート長のノートを配置してしまうと、その短いノートが始まるタイミング以降から子音が発音されることになります。
ノート・データの配置された位置きっかりには、母音を発音するので、子音の発音が途中で丸め込まれ、不完全な発音になることがあります。
具体的には、歌詞は「か」と入力しているのに「が」と発音しているかのような歌声になったり、「た」と入力しているのに「だ」と発音しているかのような歌声になったりします。
日本語では、「か行:k」「さ行:s」「た行:t」の子音は、特に長い時間を要するような気がします。
この説明ではちょっとわかりづらいので、以下、VOCALOID5での表示で示します。VOCALOIDでも同じような現象は生じるので、イメージ図として参照ください。
上図・左: 直前のノートの末尾に子音「s」「t」が食い込んでいる。
上図・右: 直前にノート分割があるときは、ノート分割されたノートの末尾から子音が発音されるようになる。
分割されたノートに割り当てられている発音記号はそれぞれ「as」「at」。(直前のノートの母音「a」がメリスマとして発音されたのち子音「s」「t」を発音している)