ElastiquePitchV2はなぜピッチ+12でもケロらないのか、またはVoicing機能は何をしているのか
2024年9月にバーチャル美少女ねむさんが主催された「ディビデュアル歌ってみたコンテスト」で、エントリーNo. 30のラランさんが使用されていたソフトウェア型ボイスチェンジャー「ElastiquePitchV2」が、ピッチを+12まで上げてもボイチェン特有の「ケロり」が起きないとして一部で話題になりました。
本記事は、ElastiquePitchV2がケロらない秘密として紹介された「Voicing」機能が実際には何をしているのか、私の声を使って明らかにしようとしたものです。結論から言えば、機能の詳細はまだ分かっていませんが、TD-PSOLAの処理のプロセス内で切り出した波形にかける窓関数を調整することでフォルマントのスペクトルを変形させているのではないか、というのが今の段階での推測です。
ElastiquePitchV2は、Zplane社から発売されているソフトウェアボイチェンです。無料のデモ版は数秒ごとに数秒間無音になります。VSTプラグインとしてDAWにインポートして使うことができます。遅延が数百ミリ秒あるため歌うには向きませんが、ラランさんは別の高速なボイチェン(MANIPULATOR)を併用されているとのことです。
ラランさんによる環境の解説:
ElastiquePitchV2には独自のアルゴリズム「élastiquePro v3」が使われていると公式サイトにありますが、élastiquePro v3のドキュメント(https://licensing.zplane.de/uploads/SDK/ELASTIQUE-PRO/V3/manual/elastique_pro_v3_sdk_documentation.pdf)を読む限り、ピッチシフトの原理は基本的にTD-PSOLAのようです。TD-PSOLAは元のピッチを推定した上で波形を切り貼りしたり再生速度を変えたりしてピッチとフォルマントを変化させる方法で、手軽なソフトウェアボイチェンとして定評のある「恋声」もこの方法による処理を実装しています。重要なのは、この方法ではピッチとフォルマントをそれぞれ独立に変化させられるということです。
TD-PSOLAの技術的な解説:
さて、ElastiquePitchV2ではPITCH、TIMBRE、そしてVoicingという三つのパラメータを独立に変えることができます。このVoicingは他のボイチェンにはみられないパラメータで、私はこれの正体を知りたいと思ったのでした。美少女になれるかどうかを、特定の企業の製品のブラックボックスな機能に握られることは好ましくないからです。
ElastiquePitchV2のマニュアル(https://products.zplane.de/wp-content/downloads/ElastiquePitch/ElastiquePitchV2_User_Manual.pdf)には次のようにあります。
ここでいう「調整する」というのが、ピッチ・フォルマントの変換前に入力信号を加工するという意味なのか、変換のし方を少し変えるという意味なのかはっきりしませんでしたが、ともかくフォルマントだけを変える機能らしいということは分かります。この先は自分で試してみることにしました。
以下のような条件で、三通りのVoicing設定で私の物理声帯の声を変換してみることにしました。
ボイチェンなしの声(裏声)を1パターン録音
マイク:Sony ECM-PC60
VSTホスト:Cantabile Lite 4
ノイズ除去:Rx 8 Voice De-noise
録音した声に、ElastiquePitchV2デモ版を3通りのVoicing設定で適用
Voicing:スライダーの左端/右端/左から1/3程度の位置
DAW:Studio One 6 Demo
ピッチ:+12
フォルマント:+4.74(普段のチエカの設定)
ElastiquePitchV2を適用した音声のスペクトルを目視で比較
スペクトルアナライザ:WaveSpectra
比較した動画がこちらです。
音声を聞いてみて分かるのは、Voicingが最小のときはケロり、最大のときは元の声に近くなってかすれ、左から1/3程度のとき(つまり、フォルマント設定に近いとき)は比較的きれいな音になっているということです。スペクトル上ではそれぞれ、2kHzのピーク(Voicing最小)、700Hz以下の盛り上がり(Voicing最大)、ピークの少なさ(Voicingフォルマントと同程度)として表れています。
確かに、700Hz(基音)と1400Hz(倍音)の周波数が変わらないことからは、Voicingはピッチには影響していないことが分かります。しかしVoicingが最大のときには基音のピークの高さがやや低くなっており、何らかの減衰が起こっています。また、Voicingの左右のヘ音記号とト音記号から、左が低い周波数、右が高い周波数に対応するはずですが、スペクトルの変化の傾向は逆になっている、つまりVoicingを下げると高い周波数に、上げると低い周波数にピークが増えていることも不思議です。
TD-PSOLA方式では基本的に波形に切り貼り以外の変形を加えないのですが、唯一波形を歪ませるのは短く切り出した波形に窓関数をかけるところでしょう。これは切り貼りの繋ぎ目を滑らかにするためのものですが、ここで窓関数の形をVoicingによって変えて、特定の周波数帯を強めたり弱めたりするフィルターのような効果を与えているのではないかと思います。TD-PSOLAにかける前の波形にイコライザのように周波数フィルターをかける機能である可能性も考えましたが、それではピッチの推定値を変えないことが保証されません。
あまちじょんこさんの『kawaiivoiceを目指す本-改定2.1-』(https://johnkohshs.booth.pm/items/2283174)には、倍音のピークについて、「山の高さが均一になると、アニメ声優さんのような可愛さになり、それぞれの山が不均一な場合は、より自然な声になるようです」(p.55)とあります。もしかするとVoicing機能は、狙った周波数の倍音ないしフォルマントを強調して他を弱めることで、「自然な」声に近づけるためのものかもしれないと思います。そうだとすれば、Voicingをフォルマントに合わせることで、ピッチとフォルマント設定で意図した周波数以外のピークが消え、比較的きれいな声になったという説明ができます。ただし、Voicingの大小とピークの出る周波数の高低が逆になっている理由はまだ分かりません。高い周波数を狙いすぎると逆に低い周波数に影響する、いわゆるエイリアスの可能性もありますが、それではVoicingを上げたときの挙動しか説明できません。
ちなみに、Voicingをフォルマントに合わせた時の声質は、実は恋声で同じピッチ・フォルマント設定を使ったときの声質にとてもよく似ています。「ピッチ+12でケロらない」というだけなら恋声でも可能、ということですね。ただし恋声はVSTプラグインとして使うことができず、また長時間連続で使っているとバッファがいっぱいになって変換できなくなるので、その部分ではElastiquePitchV2の方が便利だと思います。また、恋声に近いということはボイチェン適性は必要ということでもあるので、かわいい声を追求しようと思えば筋肉の方の努力も必要でしょう。ラランさんはベテランの歌い手の方で、ピッチを上げるためには筋肉を使っていないとしても、その他の声質や安定性などにはやはり技術がおありなのだと思います。
いかがでしたか? 決定的なことは分からずじまいでしたが、今後のボイチェン性能の高まりから目が離せませんね。
(ディビデュアル歌ってみたコンテストには私も参加しました。)