歌声合成いろいろ触ってみた感想
Vocaloid5、PiaproStudioNT、Neutrino、SynthesizerV、VoiSonaを触ってみて
ひとことで歌声合成といっても目的が違うような印象なので、個人的な感想としてまとめてみました。
Vocaloid5
最新はAIがついているVocaloid6ですが、そっちは未検証。
ボーカロイドっぽいのを引き継ぎつつEDMのボイスエフェクトみたいなのが搭載されていて、プリセットから声を選択するとベタ打ちでもそれっぽい歌いまわしとエフェクトのかかったデータができあがる。
好きな歌詞フレーズで、歌声サンプリングした音源集の素材生成みたいな扱いなのか。
自分は歌声合成ソフトは、ボーカロイド2製品から使っているのでその系統での進化ソフトなのでUIや操作もそのまま。ピッチがグラフで見れたりなど直観的だし、プラグインで使える。
PiaproStudioNT
初音ミクの歌声で最新のソフト。
PiaproStudioは初音ミクなどCryptonのボカロが動く。
PiaproStudio無印であれば、今までもっていたボカロのデータも使えるので昔のキャラの歌声を使いたい場合はこちらになるが、NTでは初音ミクのみ。
初音ミクの歌声を使いたい人はこれしかない。
初音ミクのもつ独特なプリセットビブラートとかポルタメントフォルマントなどがベタ打ちで再現できる・・・初音ミク専用歌唱合成ソフト。
Neutrino
こちらはAI歌唱のみ。
入力はMuseScoreなどでMusicXMLを作って打ち込む。ブレス位置とか入れることで少しニュアンスが変わったり。
Windowsのコマンドラインで叩いて生成する。
UIとかないので完全にプログラマ向けの感じがする。(エンジンだけある感じ)
Neutrinoはライブラリが豊富で
東北ずんこ、イタコ、きりたん、琴葉あかね、あおい、ずんだもん、四国めたん とか魅力的な声が多く 簡単に歌わせることができ、
ベタ入力(しかないのだが)がかなりリアル。
これが全部無料で試せるので、最初の導入を乗り越える価値はある。
ポップスっぽく元気よく歌ってくれる印象。
他にもボイスが多くあり無料。だけどUIとかないのでデータ作成の敷居が高い。
Vocaloid系列がボコーダーボイスぽいのに対して、歌いまわしをAIが決めてくれる感じ。ただ、必ずしも求めている歌いまわしになるかどうかは運試しみたいなところがある。
音域や音の選び方などで決まるので、作曲しつつ調整みたいな変わった手触りになる。 (そういうところも本物の歌う人相手にしているみたいな感じ)
調整がこの仕組みだけではできない。常にハイテンションみたいな曲とか、サンプラーみたいな素材生成として使うのかなという感じ。
後段で、Melodyneなどで加工するとかエフェクトを強めにかけて修正するみたいな。運よく良い素材ができたら といったAIっぽい付き合い方が必要そう。
しっとりした感じは少し難しい
元気な感じ
SynthesizerV
自分が触ったのは小春六花AI。
Neutrinoみたいなリアルな歌声が欲しくて、PiaproStudioやVocaloid5みたいなUIで操作したいとかならこちらになる。
とにかく楽だし、UIも情報(波形やピッチカーブ)がしっかりあってわかりやすく挙動もサクサクしている。
Vocaloid系と違って「グループ」という単位でいじるのが少し癖がある感じ。調整もUIはあくまで表示特化で、直感の操作とは少し離れている。
右側のインスペクターみたいなところでいろいろ調整できるので、機能拡張性は高いのかもしれない。そういうUIでのいじり方というよりはスクリプトを書いて癖をつけるみたいなプログラマっぽい思考のデザインみたい。
元気な歌声にもなるし、ソフトな歌いまわしにも調整できるっぽいけど、だいたい何もしなくても良い感じになるので、気になるところだけいじるみたいなので良さそう。
テイクボタン一つ押せばバリエーションは全自動で少しニュアンスの違うものをすぐ生成でるし、そこからノート単位で入り、出の深さとかの調整で癖
をつけるとかもできるので調整もしやすい。
逆にフラットにするのは難しい感じ。(あえてボカロのボコーダー風にするとか・・・はピッチ補正側でやればよいかな)
Vocaloidのファイルも読み込めるので便利。
AI側で英語発音も対応してくれるので英語がまざる歌詞とかでも歌わせやすい。
VSTで使っていてパラアウトできるのでインサーションのエフェクトとかかけて作れるので、最終段階まで合成側をいじれる。(途中で波形書き出しとかしなくてもいける)
合成のレンダリングとかほぼ一瞬でサクサク動くので調整が楽。
UI上で他パートも重ねて見えるのでハモリとかも作りやすい。
DAWでのVST実装は一番良いかも。
ボーカロイド系とちょっと扱いの違う「グループ」の概念が理解できれば、さわり心地がかなり良い印象。
(グループって、クラスとか構造体とかマクロとかだろうな・・・プログラマ思考的に。まったく同じ歌詞の再利用とかならこれが効率良いのもわかるけど・・・)
AIが勝手にブレスとかは入れない。
面白いのは有声音と無声音を分離して出力できるところで、
歌というか声って、この無声音部分のエフェクトがかかりすぎる問題があるので分離してだして、DAW側のオートメーションで調整とかすると手数少なく調整できそうだなとか思った。
実際の歌とかの収録だと分離できないから無声音が多すぎると後から音声加工してけずるとくぐもってしまったりして修正不可能なデータになってしまうので、「ほしい子音」「不要なノイズ成分」を切り分けたとき
単純にディエッサーとかでも上の区別つかなくなってしまうし、こういう分離技術が収録段とかでもできるような未来があると良さそうだなぁとか思ったり。
VoiSona
無料版を入れて触ったくらいなのですがCevioで有名な「ささら」さんみたいな合成の延長にある感じ。
ベタ入力で人間味というかちょっと音痴なくらいな個性がある。
(Vocaloid2の整理されていないライブラリを触った時くらいなんとかしてあげないと感)
Tuneをいじるとボコーダーっぽい音になるけど、まじボコーダー・・・すごく初期の歌声というかSoftalkで歌わせたとか 68KMac時代のボイス読み上げの古いやつみたいな・・・。
歌声じゃなくて音声合成ソフトを歌わせている(Voiceroid系)の調整に近い感じ。
ビブラート(深さ、速度)とか機械的なので、これらを全部下げて、Tuneもデフォルトより少しあげてあげると、なんというか児童合唱団的な歌声になる。(フォルマントもいじれるので、中性的な声になる→色付けはパラメータで行える。)
ハスキーとかもかなり機械的な音色変化なので、自然な感じを出すには手でグラフを書いていく感じになるのかも。
ピッチと(おそらく音量)の変化だけAI + シンセっぽいビブラート、フォルマント、ハスキーパラメータがある感じ。
Vocaloidのファイルは読み込めない。MusicXMLは読み込めるっぽい。
勝手にブレスが入る?(MusicXMLのブレス記号読んでいるのかな)
歌声のレンダリングは早くて軽そう。
UIはタブ切り替えなど最近のUIじゃない・・・色使いとか・・・
トランスポートの操作とかDAW側に統一されている感じ。(NuendoだとショートカットキーでVSTすり抜けてDAW側を操作できるけどUIクリックとかでの再生位置変更とかができない・・・)
複数パートとかが無いのは無料版だからかな。
(シングルトラックのみみたい)
のでハモリとかダブリングみたいなのは複数トラック用意してDAW側で作る感じか・・・(重ねて見れないのは使いにくいかも)
音声をサンプラー的に生成して、後加工を前提としている感じ。