ボイチェンUTAU音源をMoresamplerで作ろう【解説】

2024年12月19日 21:26

喉の物理的な限界を超えたい皆さま、ごきげんよう！
とーごア洋志です。

喉って、基本1人にひとつしかありませんよね。
ふたつくらいあってもいいのに、と思いませんか？

思ったことがある貴方は、私と一緒にUTAUで喉を1.5個くらいに増やしましょう！
というわけで、今回はMoresamplerでボイスチェンジした音源を作る方法について解説します。

UTAUが何かという大元のところの説明は省きますので、これはUTAUが何かわかる・エンジンが何かわかる・エンジンの導入を自力でできる上である程度UTAUの仕様を理解している方へ向けた記事です。

また、肉声と同じくらい綺麗なボイスチェンジをしたい！という場合にはおそらくご満足いただけない方法です。
今回ご紹介する方法では、UTAUとして使った時に「Moresamplerでフラグを盛って声色をコントロールしてるのかな〜すげ〜」くらいの音質のUTAU音源が仕上がります。

多分OpenUTAUでもできる方法ですが、個別の説明が面倒なので今回は本家UTAUを使用する前提でご説明します。
OpenUTAUでやりたい人はそうしましょう。
アレンジ大推奨、お好きにどうぞ！

ちなみに、長い文章なんか読んでられないぜ！という方はこの動画をご覧ください。
あなたが既にMoresamplerのフラグとUTAUの使い手ならば、この動画を見るだけで事足りると思います。

また、読んでくださる方も一度ご覧いただけると「なるほどこんな感じか～」というのが分かると思います！

「女声から男声のUTAU音源を作りたい！」というときにMoresamplerを使うといい感じになりました！！
という話を別所でしたときに作った動画です。

日護折鯱太郎はこの方法でボイチェンして作りました。ご参考までに https://t.co/VGotOtmrDo pic.twitter.com/uKMECQfyBk
— とーごア洋志【C05・10/12㈯】 (@Togoahi_UTAU) January 8, 2024

Moresampleをダウンロードしよう

これがないと始まりません。
とりあえず最新のMoresamplerをUTAUに導入してください。

今回やるボイチェンの仕組み

皆さまは「g変音源」をご存知でしょうか？
UTAUで歌わせる時に一括で「g+10」とか、「g-5」とかをフラグに設定して使う音源のことです。

今回はこの方法を元にボイスチェンジします。
g変音源はユーザーが歌わせる際にフラグを設定することでデフォルトの声にしてから調声することが多い気がしますが、UTAUで原音を1本ずつ鳴らして出力したものを原音にすればボイチェン済の声のUTAU音源が作れるので私はそうしました。

つまり、原音を加工せずフラグのレシピを添えて音源配布すれば、最も少ない作業量で手軽にボイチェン音源を配布できます。
もちろん、みんながみんなしっかり「歌わせるときはこのフラグを使ってね！」という説明を読んでくれるとは限らないので、フラグを使わないで原音そのままの声で作品を発表される可能性もあります。
自分がカバーで使うだけなら歌わせるときにフラグを設定するだけなので原音書き出しの手間もありません。

gフラグは数字を大きくすれば大きくするほど声の変化が大きくなり、それに比例して音質も劣化します。
また、音質の劣化とともに人の声としての不自然さも増していくように思います。
これは実際にgフラグを使って試してみるのが手っ取り早いのですが、どんな感じになるか文字で表すなら「テレビ番組で匿名のインタビューをするときに回答者の声が高く、または低く加工されているとき」を思い浮かべてください。まさにあんな感じです。

今回のボイチェンでは、このg変による音質の劣化や不自然さをMoresampleのフラグで誤魔化すことにより、g変だけでは到達し難かった域へのより自然なボイスチェンジを可能にします。多分。
（もとの声質により効果の差も大きそうです）

また、今回ボイスチェンジ時に原音のピッチの変更をするのはあまりおすすめしません。もちろん、歌わせるときは例えば男声なら声質と収録音階に合わせて1オクターブ下げる等の変更はして良いと思います。
UTAUの仕様上、歌う時に結局原音の音階から離れた音階で音素を鳴らすことが多々あるため、原音のピッチを変えてもあまり望む効果を得られないどころか1回加工手順を増やすことにより音質が無駄に劣化してしまうのでは……？と思っています。(個人の感想)

そう、つまりボイチェン音源でそれっぽい声質の音源を作るには元の声質もだいぶ重要です。
このボイチェン方法では貴方の声を別人のようにするのではなく、せいぜい〜貴方の喉がもう少しデカかったら・小さかったらのIF〜みたいな状況で出した声を疑似的に作り出すことしかできません。
作りたい声の理想がきっちり頭の中にある方は、ボイチェンして良い感じになるようにどんな声を出すか探っていく工程が大変かもしれません。応援しております……

しかし見方を変えると、既存音源の大人IFとかTS(女体化/男体化)IF音源を新録なしで作りたい場合には結構使える方法とも言えるでしょう。
特に少年声の音源が声変わりを迎えることができる可能性があります。

最初のレシピ

とりあえずは、何かUTAU音源を録音してください。お試しに「あー」という原音のwav1本だけでもいいです。
または、既存の自音源を呼んできてください。

ボイチェンするための原音が揃ったらUTAUを起動して、ボイチェンを始めましょう。

注意！
この時、もし原音設定や自動推定済のoto.iniがフォルダ内にある場合は一度他の場所に移してください。この状態では原音が鳴らないことがあります。
oto.iniが無い状態でvoiceフォルダに原音入りフォルダを置いてUTAUで読み込むか、中身が空っぽのoto.iniを原音入りフォルダ内に作った状態でUTAUで読み込むかしてください。

さて、まずは起動したUTAUに音源を読み込み、エンジン(Tool2)をMoresamplerに設定してください。

そして、生成オプション欄に以下のフラグをコピペしてみてください。

Mr50Mt-50Mo-50Md50g15

ここに入力するとエディタ上でいちいちフラグ設定しなくてもフラグ設定済状態になります
（もちろんこの状態で一つ一つの音素にフラグを設定することも可能です）

この状態で音素を何か鳴らすか何か歌わせて再生してみましょう。
元の声とは結構違う声に聞こえるのではないでしょうか。

恐らく「まだ…まだ足りない…！　もっと…！」と感じる方が多いと思います。私も最初はそうでした。

～理想を追い求めて～

さて、ここからは試行錯誤の時間です。
以下をご参考に、数字を増やしたり減らしたりしていろいろ試してみてください。

g　　声の野太さを変える
Mr　なんか声が自然な感じになる
Mt　マイナスにするとトゲトゲした感じを弱める
Mo　マイナスにするとガサガサした感じをまろやかにする
Md　息成分を調節する
※g以外は-100～+100の範囲で設定できるフラグです。

ざっくりすぎる説明で申し訳ないのですが、感覚的にわかりやすく書くと大体こんな感じになります。
g以外はgを設定したことで劣化した音質を誤魔化すために設定する感じです。

試してみたけどなんか違う！　求めるものは作れなかったよ！
という方は、録音から再挑戦してみてください。
当然ですが元の声色を変えればボイチェン後の声も結構変わります。

既存のUTAU音源がある方は、その音源をフラグでボイチェン加工してみると「じゃあ声の出し方をこういう風に少し変えて録音してみようかな」というように、声の出し方を決めやすくなると思います。

冒頭で埋め込んだツイートの音源は私がエイプリルフールに「従兄弟に音源を録ってもらいました」という嘘をつくためだけに作った音源ですが、ネタバラしまで誰にも何も一切疑われず普通に従兄弟の声だと思われていました。自分でも結構良い出来だな～と思っています。加工の力、夢がある……

ちなみにこれはエイプリルフール音源の加工元と同じ原音を使用して逆に幼い声を作る目的でフラグを設定して作成した音源の聴き比べ動画です。
こういう方向のボイチェンもできるのでぜひみなさんも挑戦してみてください！

日護折鯱太郎の4音源の比較動画です！
全て同じ原音からできているUTAU音源で、原音を加工することで別の声にしています。

①園児時代っぽい
②小学生時代っぽい
③未加工原音
④配布中の通常音源#SUInst pic.twitter.com/BRv1Zs58jZ
— とーごア洋志【再販中！てるのC05】 (@Togoahi_UTAU) August 20, 2024

サンプル音源ダウンロードURL

女声→男声に加工した音源はこちらからダウンロードできるので、今回の方法でボイチェンするとどうなるのか、音源の使用感が気になる方はぜひ使ってみてください。

幼い声になるよう加工した音源もこちらからダウンロードできます。
パスはひらがな表記なのでコピペしてください。

Q&A

Q1）原音の長さやBPMはどうすればいい？

A1）個人的に推奨する設定を書きます。

・ガイドBGM自体のBPM(=原音のBPM)=ustのBPMにする
例えば120BPMのガイドBGMで録音したなら、ustは120BPMに設定する

・長さはガイドBGMの録音区間の拍数に合わせる
例えば8モーラで発音前に2拍、発音後に1拍あるガイドBGMを使って録音した音源の場合、原音は4分音符11拍分ぐらいの長さになると思います。
なので、1つのノートを4分音符11拍分と同じ長さにすれば加工前原音とほぼ同じ長さの加工済原音が作れる……はず！　多分これが一番楽。

あとモジュレーションは個人的には100推奨です！

Q2）原音をそのままUTAUで鳴らすってどうやればいい？

A2）原音のwav名をそのまま歌詞として1つのノートに入力してください。

例えば「_んかきくけこく.wav」の場合はこうです。

そして「_んかきくけこく.wav」として**原音があった場所とは他の場所に**書き出せば完成です。
（これを全原音分繰り返す）

Q3）原音設定済の音源をボイチェンした場合、原音設定は使いまわせる？

A3）加工前のwavの長さと、加工後のwavの長さが同じであれば可能だと思います。極端に違う場合は一括でパラメータをずらすなどの調整をする必要があります。

書き出し作業が面倒なあなたを助ける支援素材

なんと八歌さんが書き出しを一括でできる支援素材を配布してくださいました！　やった～！！　ありがたすぎる…！
（私のこの記事や過去動画も八歌さんの記事内でご紹介いただいております…！！）

八歌さんによる支援素材を使うと何がどうなるのかというと、手間だった書き出し作業がたった1回で済むようになります。

まず、私がこれまでにご紹介した方法は、原音設定せずに原音1本1本をそれぞれ鳴らして個別に書き出すという方法でした。

対して八歌さんの切り出し用USTを使用する方法は、原音設定した音源にUST上で録音リストを読み上げてもらい、1本のwavとして全体を書き出したあとwavを原音ごとに分割するという方法です。
つまり、wav名をUSTに入力してひとつひとつ書き出して…という大変面倒な作業をする必要がなくなりました！
（オリジナルのリストを使っている場合は…がんばろう！）

詳しくは八歌さんのnote記事をご覧ください！
（支援素材のダウンロード先URLも記事内に記載があります）

「サクッとお手軽にボイチェン音源を作ってみたい！」という八歌さんの支援素材を使用するのがとてもオススメです！

ちなみに、自分で読み上げた台詞系の原音や、周波数表の修正が必要になるようなエッジ系音素の書き出しは、私の方法で原音ごとにひとつひとつ周波数表を修正しながら書き出していくのも向いていると思います。
ぜひご自分に合った方法を試してみてくださいね。

以上、とーごア洋志でした。
この記事が多少なりとも皆さまのお役に立てれば幸いです。

スキしてくださるとヤッタ～～！！！！！という気持ちになって嬉しいので、少しでも「役に立ったな～」「いいこと知れたな～」と思っていただけたらスキしてくださると嬉しいです！

ご質問がありましたら、コメントかhttps://x.com/Togoahi_UTAUまでどうぞ。（Twitter(X)にご連絡いただくのが一番早いです）

2024年12月19日　公開
2024年12月20日　加筆修正
2024年12月24日　加筆修正（支援素材について）