UTAUにおけるCVVCがふんわりわかる(かもしれない)

 こんにちは! さにのんです。
 最近個人的にCVVCがアツい! ので、CVVCの調声とか音源の作り方を書きたいな~~と思いました。
 が、そもそもCVVCって何? がわかってない人がいるのでは……? ということに気づいたので、まずCVVCって何? を技術面から説明したい! します! というNOTEです。

 あくまでもさにのんの解釈です、というのを念頭に置いた上で読んでいただければと思います。
 そんなに間違えたことは言っていないと思うんですが歴戦の猛者から見たら違うことも多分ある。ので。

この記事の対象
 
CVVCよくわからんけど興味はあるぜ! というUTAUユーザー

この記事のゴール
 
CVVCの特徴がある程度わかる


UTAU(歌声合成)って何してるの?

 AI系はとりあえず置いておいて、UTAUとかの波形接続系歌声合成が何をしているのか、というのをまず知りましょう。そうすると多少わかりやすいので。

そもそも声とは?

 歌声合成、つまり歌声を機械合成する技術です。まずはそれの基盤を知る所から始めましょう。
 歌声、つまり声は、音の一つです。音の一つであるので、音の特徴を持っています。
 では音とはなんでしょう?

 音を聞くとき、人間は鼓膜の振動を感じています。つまり、人間が感じる音とは鼓膜の、空気の震えです。
 だから宇宙では音が聞こえないんですね。空気が無いから。

 では人間が感じている空気の震えとは何でしょう?
 パッと答えを書いてしまうと、空気の密度波です。(粗密波とも言います)

別の言い方をすると,音は圧力の変動の波である.

https://www.lab.kobe-u.ac.jp/eng-arch-en1/intro-acoust/acoustics2.html
 音響学入門 音の性質:音の基礎知識(その1)

 つまり声とは波であるわけですね。

 つまり音声合成とは、波をいかにつなげるかという試みであるともいえます。

波(=声)を繋げるとは?

 波を繋げよう! と思う時、大前提として自然につなげたいわけです。
 では自然な波の繋げ方とは何か? 位相差、つまり急な変化が生じない波の繋げ方をしたいわけですね。急な変化(=ありえない変化)はなるべくなくしたいんですね。

 では波がいくつかある時に、自然につなげたいとするとどのようにつなげるのがいいでしょうか?
 そうですね、似ている波を繋げればいい

 では、どのようにして波を似ているか識別すればいいでしょうか?

似ている波とは?

 どのようにして波を、音を、声を、似ているか判断すればいいのでしょうか。

 皆さんがいつも使っているローマ字は、簡単に話すうえで非常に有用です。
 そもそも日本語とは表意文字、意味を書いている言語であるというのはご存じだと思います。
 音声のみ合成するのであれば、表音文字にして分類することで認識しやすくなります

 では日本語の表音文字とは何か? そうですね、ここでローマ字が出てきます

 ローマ字を使って、似ている波を定義すればいいわけです。

似ている波ってつまりは?

 細かい話は違いますが、理解しやすくなるように話します。

 ローマ字においては、母音(aiueo)と、子音(kとかsとか)を繋げて一文字を作成します。

 つまりは、ローマ字で同じアルファベットを使っている物=似ている波、であるわけです。

ここまでのまとめ

 音声合成=同じアルファベットを繋げる作業

じゃあCVVCってなんなの?

 ここでようやくCVVCの話に移ります。長かったね……。

CVVCのCとかVとかって何?

 C=子音(consonant)
 V=母音(vowel)

 です。
 おや。どこかで見覚えがありますね……。ローマ字でもこうしてましたね……。

じゃあCVVCって何が入ってるの?

 CVVCの中に入っているのは、大きく分けて三つです。

CV→単独音
  あ、か、等一音のエイリアスがついた音素
VCV→連続音
  n あ、i か、等前に続く母音と一音のエイリアスがついた音素
VC→CVVCの特徴的な音素
  n k、a sh、等前の母音と子音のエイリアスがついた音素

CVVCって何ができるの?

 ここで、圧搾(あっさく、ASSAKU)と、浅く(あさく、ASAKU)を子音を意識しながら口に出してみましょう

 ローマ字でもわかりますが、小さいっは、次の音の子音を伸ばしていることがわかると思います。

 ではここで話が戻り、CVVCの特徴です。VC音素が入っていることが特徴なのですが、ではVC音素の特徴とは何か

 VC音素の特徴は、子音が伸びる事です。

 じゃあ子音が伸びて何が嬉しいか? そうですね、ここで圧搾の話が出てきます。
 小さいっの表現、タメの表現がうまいことがCVVCの特徴です。

 しかし、VC音素と単独音をつなげる、というCVVCの特徴は、音の切れ目が多いという弱点にもつながります。
 音の切れ目が多い、つまり波を繋げるところが多いということです。
 波を繋げる行為は、どうしても音質がある程度下がる、下がりやすい行為であることに違いはありません。

 CVVCは、収録量と音質のバランスが取れているものの、「バランスが取れている」ものでしかなく、また前提知識が多く必要であることに留意が必要です。

ここまでのまとめ

 CVVCは小さいっとタメが得意な「バランスが取れている」収録形式!

終わりに

 ということでCVVCの技術的解説でした。
 CVVCの事がふんわりわかるようになってたらいいな……と思います。
 また、この記事は個人的に以前行った配信前編の記事版のような感じです。そちらの配信では今後書く予定の原音設定や調声も喋っておりますので、よろしければ。

関連リンク

↑CVVC調声~原音設定解説
  さにのん
以前行った配信です。

↑小さい「っ」は無音ではない
  まいこ 様
VC音素の使い方が詳しく書いてあります。おすすめ。

↑音響学入門
  神戸大学 様
記事中で引用させていただきました。

それでは皆様良いUTAUライフを! さにのんでした~!

更新履歴

2025/02/02
 初出

いいなと思ったら応援しよう!