CeVIO・VoiSona楽譜入力のコツ:考え方・コンセプト
※この記事は「いぬいぬ流CeVIO・VoiSona楽譜入力のコツ」の2つ目の記事です!
考え方
CeVIOソングやVoiSona の「楽譜(NOR/NOTE)」はVOCALOIDやUTAUとかの、他のボーカルシンセサイザーソフトの「楽譜」と呼ばれているものとは意味が違います。
※ついでに、MIDIシーケンサーのノーツともちがいます!
意味が違うものなので、VOCALOIDやUTAUの楽譜と同じ方法をためすと、いろんなところがおかしくなります!
まあ、見た目似てるし、MIDIファイル経由で取り込めたり、変換できるから同じものだと勘違いしてもおかしくないんですけどね…。
理由としてはソフトのコンセプト、考え方が違うからですね。
コンセプト
CeVIOソングやVoiSonaのコンセプトは古いCeVIOの
インタビュー記事に書かれてます!
ふる~い記事ですけど、基本的な考え方はこの通りです!
すごい!わかりやすい!
なんで公式に書いてないんだ…
CeVIOソングやVoiSonaの楽譜データは、
「”本当の意味の”人間が歌うときの元の楽譜」です!
ん?どーゆーこと?
と思うかもしれません?
これはCeVIOソングの仕組みにヒントがあります!
CeVIOソングの仕組み①:歌い方を学習&再現
元の楽譜
↓
それをみて人間が歌う
↓
「元の楽譜」と「歌ってみた」の違いをAIが学習
↓
学習をもとに歌声を再現
っていう流れで歌声が合成されます!
「元の楽譜」は「人間が歌ってもらう用」の楽譜です。
「こーゆー風に歌って!」ってお願いが書いてあるものです。MIDIみたいにそのままその通りに再生される訳じゃなくて、楽譜を読んだ歌手が自己流のクセを入れて歌う、そういう元になるものです。
「MIDIデータも楽譜データじゃないの?」って思うかもしれません!
DTMやコンピューターミュージックで使われるMIDIは楽譜に似たものではあるんですが、タイミングだったりピッチはピッタリする前提です。
それに対して元々の楽譜は、生声の歌唱や楽器の生演奏が前提なので、ピッタリ合わない前提です。楽譜では生の歌声や生の楽器のゆらぎを全部再現できないので、歌い方や演奏方法の指示をしつつ、細かいところは歌手や演奏者に任されています。そしてCeVIOソングの楽譜データは、MIDIじゃなくてこっち(ピッタリ合わない前提)です。
なので!CeVIOに入力する楽譜情報も、
元の人間が歌う用の楽譜(っぽく)ないとダメです。
人間が歌う用の楽譜なので、当然、MIDIや、ボカロとかコンセプトの違う他の音声合成ソフトに歌わせる用の楽譜や、ピアノやシンセなどのメロディ譜とも違います。
CeVIOソングの仕組み②:音を出す原理
CeVIOのソング・トーク、そしてVoiSonaの声を出す原理は「統計的音声合成」と言われます。
これは声のパラメータだけを記録しておいて、音を出すときに声をシミュレートして出す仕組みになってます。
声を刻んで繋いでいくタイプのVOCALOIDやUTAUとは音を出す原理が違います。
DTMのサンプリング音源とモデリング音源の違い、って言われたりもしますね!
※完全な物理シミュレーションは難しい、とも書いてあるので詳しく言えば物理モデリング音源というわけもないようです。この辺、めっちゃ難しくて、すぐに難しい論文や数式が出てきてよくわかりません…。間違ってるかも?
声や喉をシミュレートしているので、
声や喉のありえないコトはできません。
(または、学習データが無いので音が出ないか、変になる)
ありえないコト
同時に全然違う2つの音を出す(喉は1つしかない!)
声が出せないほどのメチャクチャな早口
声が出せないほどのメチャクチャな高音・低音
物理的にありえないコトでも、MIDIとかだとできちゃったりするので、MIDIとかと同じ仕組みだと思ってるとこれに引っかかります。
「仕組み①:歌い方を学習&再現」でAIが学習してたのは、
声のパラメータが人によってどう違っていて
元の楽譜に対してどう変化するのか
(トークボイスの場合は原稿に対するしゃべり方)
ってところを学習してたことになります。この学習した内容をもとに、歌い方(や喋り方)を再現しながら、
喉をシミュレートして歌っ(ったり、喋ったりし)てます。
ちなみに、古い方のCeVIOでは、AI(DNN)じゃなくて確率を使った別の仕組み(HMM)で学習されてます。
古い方のCeVIO Creative Studio
「🤔たぶん確率的にこうなるんじゃね?」
CeVIO AIやVoiSona
「😤めっちゃ勉強したんで完コピできます!」
リアルさの違いはこんなところで、逆に言えば声や喉のシミュレートするところは仕組みとしては大体おんなじで変わっていないようです。ただ、AIの方はざっくり再現しにくくなった分、データがないとか無理な発音をさせようとすると
破綻しやすくなっています…。
ミニもくじ
前の記事「はじめに・もくじ」
次の記事「楽譜の意味・やらない方がいいこと」