CeVIO・VoiSona楽譜入力のコツ：考え方・コンセプト

2022年6月19日 20:40

※この記事は「いぬいぬ流CeVIO・VoiSona楽譜入力のコツ」の２つ目の記事です！

考え方

CeVIOソングやVoiSona の「楽譜（NOR/NOTE）」はVOCALOIDやUTAUとかの、他のボーカルシンセサイザーソフトの「楽譜」と呼ばれているものとは意味が違います。
※ついでに、MIDIシーケンサーのノーツともちがいます！

たとえば「きっぱりと(ド・レ・ミ・ファ)」と歌わせたい場合、VOCALOIDなら、「き(ド)」を短いノートにし、「ぱ(レ)」、「り(ミ)」、「と(ファ)」の3つは歌わせたい音長に合わせて、ノート長を調整しますよね。そのため、分解能も事前に1/64に設定して、できるだけ細かく調整していくのが基本。これは、まさにMIDIの考え方ですよね。
それに対し、CeVIOでは譜面どおりに入力していく必要があり、ノート長を調整してはいけないのです。また「っ」も文字として入力することができ、「っ」があるかどうかで、歌い方も大きく変わってくるのです。

ボカロとまったく作法が異なるCeVIO Creative Studioを使いこなせ

意味が違うものなので、VOCALOIDやUTAUの楽譜と同じ方法をためすと、いろんなところがおかしくなります！

まあ、見た目似てるし、MIDIファイル経由で取り込めたり、変換できるから同じものだと勘違いしてもおかしくないんですけどね…。

理由としてはソフトのコンセプト、考え方が違うからですね。

コンセプト

CeVIOソングやVoiSonaのコンセプトは古いCeVIOの
インタビュー記事に書かれてます！

VOCALOIDやUTAUのように、音符の長さを細かく変えられるようにすればいいんじゃないか、という意見もあるだろうが、それはやらない。

「CeVIOは、さとうささらというバーチャルシンガーがいて、彼女に楽譜を渡して歌ってもらうようなもの」と説明する。MIDI情報に基づいて波形をつなげていくVOCALOIDは、楽器に近い。CeVIOの調整機能は「スタジオで歌手に、そこは少しためて歌って、と指示するようなイメージ」という。
　
音符の長さを細かく設定して、というのはCeVIOではやらない。タイミングを合わせる最小単位を決める「クォンタイズ」が32分音符までなのは、それ以上の譜面は人間の歌手が読めない、読めても歌に反映できないからだ。そのかわり、その譜面を見て、歌手が適切な長さに、いいと思ったタイミングで歌う。
　ソフトの中に住んでいる歌手に譜面を渡すと歌ってくれる……そのイメージ通りのことが実際に行われている。

https://www.itmedia.co.jp/news/articles/1309/25/news105_2.html

ふる～い記事ですけど、基本的な考え方はこの通りです！
すごい！わかりやすい！
なんで公式に書いてないんだ…

CeVIOソングやVoiSonaの楽譜データは、
「”本当の意味の”人間が歌うときの元の楽譜」です！

ん？どーゆーこと？
と思うかもしれません？

これはCeVIOソングの仕組みにヒントがあります！

CeVIOソングの仕組み①：歌い方を学習＆再現

元の楽譜
↓
それをみて人間が歌う
↓
「元の楽譜」と「歌ってみた」の違いをAIが学習
↓
学習をもとに歌声を再現

っていう流れで歌声が合成されます！

「元の楽譜」は「人間が歌ってもらう用」の楽譜です。
「こーゆー風に歌って！」ってお願いが書いてあるものです。MIDIみたいにそのままその通りに再生される訳じゃなくて、楽譜を読んだ歌手が自己流のクセを入れて歌う、そういう元になるものです。

「MIDIデータも楽譜データじゃないの？」って思うかもしれません！
DTMやコンピューターミュージックで使われるMIDIは楽譜に似たものではあるんですが、タイミングだったりピッチはピッタリする前提です。

それに対して元々の楽譜は、生声の歌唱や楽器の生演奏が前提なので、ピッタリ合わない前提です。楽譜では生の歌声や生の楽器のゆらぎを全部再現できないので、歌い方や演奏方法の指示をしつつ、細かいところは歌手や演奏者に任されています。そしてCeVIOソングの楽譜データは、MIDIじゃなくてこっち（ピッタリ合わない前提）です。

なので！CeVIOに入力する楽譜情報も、
元の人間が歌う用の楽譜（っぽく）ないとダメです。

人間が歌う用の楽譜なので、当然、MIDIや、ボカロとかコンセプトの違う他の音声合成ソフトに歌わせる用の楽譜や、ピアノやシンセなどのメロディ譜とも違います。

CeVIOソングの仕組み②：音を出す原理

CeVIOのソング・トーク、そしてVoiSonaの声を出す原理は「統計的音声合成」と言われます。

これは声のパラメータだけを記録しておいて、音を出すときに声をシミュレートして出す仕組みになってます。
声を刻んで繋いでいくタイプのVOCALOIDやUTAUとは音を出す原理が違います。

DTMのサンプリング音源とモデリング音源の違い、って言われたりもしますね！
※完全な物理シミュレーションは難しい、とも書いてあるので詳しく言えば物理モデリング音源というわけもないようです。この辺、めっちゃ難しくて、すぐに難しい論文や数式が出てきてよくわかりません…。間違ってるかも？

声や喉をシミュレートしているので、
声や喉のありえないコトはできません。
（または、学習データが無いので音が出ないか、変になる）

ありえないコト
- 同時に全然違う2つの音を出す（喉は１つしかない！）
- 声が出せないほどのメチャクチャな早口
- 声が出せないほどのメチャクチャな高音・低音

物理的にありえないコトでも、MIDIとかだとできちゃったりするので、MIDIとかと同じ仕組みだと思ってるとこれに引っかかります。

「仕組み①：歌い方を学習＆再現」でAIが学習してたのは、

声のパラメータが人によってどう違っていて
元の楽譜に対してどう変化するのか
（トークボイスの場合は原稿に対するしゃべり方）

ってところを学習してたことになります。この学習した内容をもとに、歌い方（や喋り方）を再現しながら、
喉をシミュレートして歌っ（ったり、喋ったりし）てます。

ちなみに、古い方のCeVIOでは、AI（DNN）じゃなくて確率を使った別の仕組み(HMM)で学習されてます。

古い方のCeVIO Creative Studio
- 「🤔たぶん確率的にこうなるんじゃね？」
CeVIO AIやVoiSona
- 「😤めっちゃ勉強したんで完コピできます!」

リアルさの違いはこんなところで、逆に言えば声や喉のシミュレートするところは仕組みとしては大体おんなじで変わっていないようです。ただ、AIの方はざっくり再現しにくくなった分、データがないとか無理な発音をさせようとすると
破綻しやすくなっています…。

ミニもくじ

前の記事「はじめに・もくじ」
次の記事「楽譜の意味・やらない方がいいこと」