AIきりたんNEUTRINOを使てみた
先日こんな記事をみてちょっと面白そうだなと思いNEUTRINOを触ってみた。もっと早く触っても良かったのだが音楽とかは専門外なので渋っていたが、実際触ると楽しかった。
NEUTRINOって何?
NEUTRINOニューラルネットワークを使った歌声シンセサイザーである。まだできたばかりなのでVOCALOID等とは単純に比較はできない。楽譜だけで比較的簡単に人間っぽい歌い方をしてくれることが魅力である。
つまり楽譜だけできりたんに歌わせることができるのだ。歌声作成のイメージはこんな感じ。
使い方
NEUTRINOにはwindows版、mac版、Online版(google colab)の3種類があり、今回はOnline版を使う。
導入、基本操作はサイトを見ればわかると思うので省略する。
サイトの通り行えばきりたんの音声データsample1_syn.wavとsample1_nsf.wavが出力される。
synはWORLD(音声分析変換合成システム)で作製したもの
nsfはNSF(Neural SourceFilter)で作製したもの
変数の調整
基本は公式のページを書いてあるが、あちらこちらバラバラだったのでまとめてみる。
●ディレクトリの設定
これは変える必要はないと思うが、colabのフォルダ階層は特殊なため自分の作った階層と違う場合2番のパスを変更必要がある。
ちなみに%や!を使うとコマンドラインになるため、空白や日本語文字などに気を付けること。
# move NEUTRINO directory
%cd drive/My\ Drive/Colab\ Notebooks/xxxxxxxxxxxxxxxxxxxxxx
●楽譜の変更
自分で作った楽譜を使いたい場合は次のフォルダに格納する。
xxxxx/NEUTRINO/score/musicxml
楽譜はmusicxml型のデータを準備する。
作り方等MusicXMLについてはこちらを確認。
ちなみにsampleの楽譜はこんな感じ。
sample1:春が着た
sample2:茶摘の歌
sample3:さくらさくら
●キャラクターの変更
きりたん以外のキャラクターの音声も作ることができる。現在はきりたん(KIRITAN)、謡子(YOKO)、The JSUT Collection(JSUT)の3つある。
4番のコード部ModelDirを変更することで変えられる。
# NEUTRINO
ModelDir=KIRITAN #きりたんの場合
ModelDir=YOKO #謡子の場合
ModelDir=JSUT #The JSUT Collectionの場合
●その他変数
PitchShiftはピッチの変更
値を上げるとが高くなり、下げると低くなる。
FormantShiftは声質の変更
値を上げると子供っぽく、下げると大人っぽくなる。
# WORLD
PitchShift=1.0 #ピッチ{"-6":0.707, "-5":0.749, "-4":0.794, "-3":0.841,
"-2":0.891, "-1":0.944, "0":1.000, "+1":1.059,
"+"2:1.122, "+3":1.189, "+4":1.260, "+5":1.335,
"+6":1.414}
FormantShift=1.0 #目安範囲(0.85-1.15)
細かいことはこちらにて確認。
きりたんだけではなくイタコ姉さまのデータベースプロジェクトも動いているので今後の発展が楽しみ。