歌わずに歌唱データベース作ったったwww
はい
あつい日が続いてるから
UTAU音源を歌唱データベースにして
NNSVSに移植した。
手順
① MIDIをUSTに変換
② UTAU音源に歌ってもらって WAV を生成
(連続音のみ可、語尾息は不可、プレフィックスの歌詞追加必須)
③ moresampler で原音設定ファイルをつくりなおす
④ utau2db で自動ラベリング、LAB を生成
(原音設定ファイルから子音長を推定)
⑤ MIDI を MusicXML に変換
(MuseScoreとか)
⑥ MusicXML の促音部分を修正
(「か」「っ」の音符を結合して「かっ」)
⑦ pysinsy で比較用の LAB を生成
(自作ツールの generate_lab_from_xml を使った)
https://github.com/oatsu-gh/oto2lab/tree/master/tool/generate_label_from_xml
⑧ lab_set_start_sil で ④でつくったLABを上書き修正
https://github.com/oatsu-gh/oto2lab/tree/master/tool/lab_set_start_sil
⑨ lab_check_invalid_time で使えないLABを検出、手動で排除
https://github.com/oatsu-gh/oto2lab/blob/master/tool/lab_check_invalid_time.py
⑩ NNSVS で stage 0 と stage 1 の動作チェック
⑪ エラーがでなければ成功
感想
①②⑤が手作業でめんどくさい。
⑦⑨を実行するための環境構築がきつそう。
setup-nnsvs-on-wsl っての公開してるから使って。
https://github.com/oatsu-gh/setup-nnsvs-on-wsl
moresamplerが原音設定ミスってても多分問題ない。
歌唱データベースをUTAU音源化できるんだから逆もできるよなあ?