#3 VX-βが生成するピッチの注意点
VX-βが生成するピッチの注意点をまとめておきます。
VX-βの発音記号について概略したのち、特殊な発音記号である「SIL」「BR」を使ったピッチ制御のTIPSにも触れます。
1. VX-βはリアルタイムに歌声を合成する
VX-βプラグインは、シーケンス・データをリアルタイムに演算して歌声に合成します。
プラグインの各パラメータはすべてリアルタイム制御/オートメーション制御が可能で、制御にしたがって、リアルタイムに歌声を変化させます。
VOCALOIDなどの歌声合成エディタによる入力と異なるのは、下記の2点です。
・エディタ上ではノートと歌詞のみを入力する。
・その他のあらゆる調整はすべてDAW上のVX-βで行う。
ノートと歌詞の入力という部分を除けば、 通常のソフトウェア音源を操作するイメージにかなり近いものになっています。
しかし、VX-βが合成する歌声のピッチに関しては、 通常のソフトウェア音源とはかなり違っています。
2. VX-βでのピッチの注意点
VX-βがリアルタイムに合成する歌声のピッチは、直近に歌ったノートのピッチに依存します。
高いピッチで歌ったのちに低いピッチで歌うときは、高いピッチから低いピッチへと遷移して歌います。
つまり、直近に歌ったピッチ(=発声するピッチの基準)にひきずられて、次のピッチを歌おうとします。
以上のことから、下記のことに注意する必要があります。
1) 楽曲の一部をループ再生したとき
たとえば、DAW上で数小節をループ再生しているときには、そのループの冒頭部分のピッチは、ループの末尾のピッチから遷移して歌っています。
つまり、ループ再生時の冒頭のピッチは、楽曲全体を通して再生したときとは違うピッチで歌っているということです。
なので、ループ再生してデータを調整したいときは、調整をしたい箇所をピンポイントでループさせるのではなく、調整をしたい箇所の前後にいくらかのマージン(数拍〜1小節程度)をとったほうがよいです。
VX-βは、シーケンス・データを事前に読み込む仕様にはなっていますが、シーケンス・データ全体の流れを把握しないまま、歌声を合成します。
内部的には、歌声合成エンジンに次々と送られてくるノートと歌詞の情報に基づいて、リアルタイムに歌声を合成しているとのことです。
なので、同じシーケンス・データを歌わせたときであっても、楽曲の一部分をループ再生させたり、楽曲を飛ばし飛ばしに再生させた場合には、その都度、異なるピッチで歌い始めます。
2) 歌の冒頭/長い休拍ののちの歌い始め
DAWを起動した直後など、直近に歌ったノートが存在しない場合は、VX-β自体が持っている基準のピッチから歌おうとします。
このピッチがやや低めに設定されているらしく、高いピッチをいきなり歌おうとすると、低いピッチから高いピッチへの遷移が生じて、ケロった感じの変な発声になりやすいです。
同様の問題は、長い休拍ののちの歌い始めにも生じます。
長い休拍の前の歌い終わりのノートのピッチと、その後の歌い始めのノートのピッチとの間に大きな隔たりがあると、その後の歌い始めのノートは、ケロった感じの変な発声になりやすいです。
これらの問題は、特殊な発音記号である「SIL」や「BR」などで回避することができます(「SIL」「BR」の説明は後述)。
2. VX-βの発音記号
VX-βのクイックマニュアルに書かれている発音記号一覧を見て、「あれ?」と思ったあなたはきっと熟練したボカロPです。
VX-βは、発音記号の表記体系がVOCALOIDとは異なります。
たとえば、日本語母音の「う」の発音記号は、VOCALOIDでは「M」ですが、VX-βでは「u」です。
VX-βプラグインで表示される発音記号は、VX-β用の発音記号です。
他方、VOCALOIDの発音記号は、「X-SAMPA」(※)という発音記号の規格に準じているようです。
1) VX-βの発音記号
VX-βの日本語の発音記号は、ヘボン式ローマ字にほぼ準拠した小文字アルファベットになっています。
ただし、「ん」だけは大文字の「N」で、小文字「n」だと英語の子音「n」ということになるようです。
「っ(小さい「つ」)」はVOCALOIDでは「Sil」ですが、VX-βでは「cl」となっています。
(CeVIO、SynthesizerVの発音記号と同じぽい)
VX-βは、VOCALOID5-6のファイル形式である「.vpr」が読み込まれると、自動的に発音記号をVX-β用の発音記号に変換します。
それ以外のファイル形式を読み込んだ場合は、実際に入力されている歌詞(かな・英単語)から、VX-βに内蔵されている辞書を使って、発音記号に変換するのだと思われます。
2) 特殊な発音記号 「SIL」「BR」
VX-βの特殊な発音記号にはいつくかありますが、「SIL」と「BR」は必須といえるほど重要なので、その2つだけ説明します。
●「SIL」「sil」
「silence」を略した発音記号で、入力したノートの長さに応じて強制的に無音を挿入します。
「SIL」 無音 + 発声するピッチの基準を「SIL」が入力されたノートのピッチに変更する
「sil」 無音 + 発声するピッチの基準を変更しない
VX-βクイックマニュアルの「特殊な発音記号一覧表」の「SIL」の効果説明にある (ピッチをSILを入力したノートでガイド) というのは「 SIL」の入力されたノートのピッチを歌ったつもりで次を歌います、という意味です(後述の「BR」も同様の意味)。
●「BR」「br」
「breath」を略した発音記号で、入力したノートの長さに応じて強制的にブレス(息を吸ったときの音)を挿入します。
「BR」 ブレス + 発声するピッチの基準を「BR」が入力されたノートのピッチに変更する
「br」 ブレス + 発声するピッチの基準を変更しない
3. ピッチを制御するTIPS
「SIL」や「BR」は 発声するピッチの基準を変更できるので、うまく使うことで、VX-βが合成する歌声のピッチをいくらかは制御できます。
1) 歌い始めに「SIL」か「BR」を配置する
歌の冒頭部分や、長い休拍ののちの歌い始めの箇所の直前には、「SIL」か「BR」を配置したほうがよいです。
具体的には、歌い始めとなる箇所の直前に、歌い始めのピッチと同じピッチで「SIL」か「BR」を配置します。
そのようにしておくと、無駄なピッチ遷移なしに、最初から狙ったピッチで歌ってくれます。
VX-βの自動ブレス中にBRのノートがくると、強制的に息を吸い直します。
なので、BRのノートの前にはSILのノートを配置したほうがよいです。
2) ロングトーンの歌い終わりに歌詞「h」のノートを配置する
長いロングトーンを歌わせると、ロングトーンの後半で、ピッチが下がってきてしまうことがあります。
開発元に「どうにかなりませんか?」と尋ねたところ、問題となるロングトーンの直後に同じピッチで短いノートを配置し、発音記号を「h」とすると回避できる(ことがある)、とのことでした。
ロングトーンの歌唱が、次のノート「h」に繋げようとするため、ピッチを下げずに歌い続けることが多いそうです(「h」の子音はロングトーン終わりのブレスの音に混ざってあまり気にならない)。
この方法でたいていは回避できましたが、回避できない箇所もあったので裏技的な対処法という感じでしょうか。
4. ブレスを制御するTIPS
ブレス音は、特になにも指示をしなくとも、AIが自動的に合成します。
歌い始めの直前ではたいていブレスが入りますし、場合によっては歌い終わりでもブレスが入ります(人間は息を吐ききったら強制的に吸うので間違ってないです)。
とはいえ、ノートの存在しない箇所では必要以上にブレスしがちなので、ブレス音が入らないようにしたいときもあります。
ブレスしてほしくない箇所では、「SIL」系の発音記号か、「っ」のノートを配置してブレスを回避します。
逆に、ブレスを強制的に挿入したいときは、「BR」か「br」を入力します。
5. V5-6エディタでVX-β用の発音記号を入力する方法
VX-β用の特殊な発音記号は、メリスマ記号である「-」を除いて、VOCALOIDでは対応していません。
VX-βでしか使えない発音記号をV5-6エディタで入力したいときは、V5-6エディタ上で発音記号入力モード(※)に切り替えます。
発音記号入力モードで、VX-β用の発音記号の前に「$(英数半角ダラー)」を挿入したものを発音記号として入力します。
例) 「SIL」→「$SIL」 「BR」→「$BR」