歌わずに歌唱データベース作ったったwww

はい

あつい日が続いてるから
UTAU音源を歌唱データベースにして
NNSVSに移植した。


手順

① MIDIをUSTに変換

② UTAU音源に歌ってもらって WAV を生成
(連続音のみ可、語尾息は不可、プレフィックスの歌詞追加必須)

③ moresampler で原音設定ファイルをつくりなおす

④ utau2db で自動ラベリング、LAB を生成
(原音設定ファイルから子音長を推定)

⑤ MIDI を MusicXML に変換
(MuseScoreとか)

⑥ MusicXML の促音部分を修正
(「か」「っ」の音符を結合して「かっ」)

⑦ pysinsy で比較用の LAB を生成
(自作ツールの generate_lab_from_xml を使った)
https://github.com/oatsu-gh/oto2lab/tree/master/tool/generate_label_from_xml


⑧ lab_set_start_sil で ④でつくったLABを上書き修正
https://github.com/oatsu-gh/oto2lab/tree/master/tool/lab_set_start_sil

⑨ lab_check_invalid_time で使えないLABを検出、手動で排除
https://github.com/oatsu-gh/oto2lab/blob/master/tool/lab_check_invalid_time.py

⑩ NNSVS で stage 0 と stage 1 の動作チェック

⑪ エラーがでなければ成功


感想

①②⑤が手作業でめんどくさい。

⑦⑨を実行するための環境構築がきつそう。
setup-nnsvs-on-wsl っての公開してるから使って。
https://github.com/oatsu-gh/setup-nnsvs-on-wsl

moresamplerが原音設定ミスってても多分問題ない。


歌唱データベースをUTAU音源化できるんだから逆もできるよなあ?

いいなと思ったら応援しよう!