見出し画像

【UTAU】ITAコーパス100文+RVCでお手軽に表情音源を作ろう

こんにちは。表情音源をお手軽に作る方法を考えたのでここに記しておきます。

※注意
他人が作ったUTAU音源を学習に利用しないでね
これは自分の声→自分の声(強い声or弱い声)の変換の方法の紹介になります


こんな感じのができます▼

original : マーシャル・マキシマイザー/柊マグネタイト さん

・ARPASINGでの発音もあります
・一部完全新録でのささやき音源を補助的に使用しています

こんな人におすすめ

・連続音収録、CVVC収録もしくはARPASING収録が済んでいる音源があり、とにかくお手軽にそれらの表情音源を作りたい
・"歌"で表情を維持するより"喋り"で表情を維持する方が得意
・原音設定を追加でしたくない

ITAコーパス文読み上げ音声の準備

ITAコーパスは、パブリックドメインの文章群で音素を効率的に収録するためのものです。
EMOTION100文の読み上げだけで十分です。
作りたい表情の声色で読んでください。やりすぎなくらいで大丈夫です。

僕はREAPER(有料版)で文の間に十分間隔を空けてまとめて録った後、Audacityの自動ラベル付け機能で分割しています。
REAPERで録るとノイズ除去のエフェクト(ReaFir)をそのまま適用できたりするので便利です。
初心者の方はOREMOなどを使った方がラクかと思います。使ったことないですが……

朗読者用のpdfを印刷したりして読むのがいいですね。
僕はiPhoneに表示して読んでいます(文字が小さい)

ファイル名はなんでもいいですが一応英数字だけのものにしておくと吉です。
フォルダのパスにスペースやひらがな漢字が入らないようにも注意してください。(一応)

一番いいのはフォルダをCドライブなどの直下に置くことです。

僕は追加で20文だけ高い声で読んだものも用意しています。

RVCの準備

右の列のReleasesから最新版をDLし解凍します。
cpuの種類にもよると思うのですが、cpuでも動きます。

自分がDLした時はwebUIを開く用のgo-web.batが無かった(気がする)ので、本バージョンから取り寄せてみてください。

トレーニング

基本設定はこちら

基本の設定はこちらの画像を参照してみてください。

ユーザーにより変更すべきなのはこちらです。
モデル名 : 好きなのにしてください
CPUスレッド数 : タスクマネージャーから確認できるものに合わせてください
トレーニング用フォルダのパス : エクスプローラーのアドレスバーからコピペできます

設定出来たらデータ処理→特徴抽出→ワンクリックトレーニングで学習を回してください。何時間もかかるので(僕の環境だと)、夜中寝てるときに回すのがいいです。電気代食います。
進捗は同時に起動されているコマンドライン(黒い画面)から確認できます。
一応特徴インデックスのトレーニングボタンも最後に押してます

モデル推論:批量推理(一気に処理)


基本設定はこちら(ほぼデフォルトです)

ユーザーにより変更すべきなのはこちらです。
音源推論 : さっき決めたモデル名を選んでください
無い場合は音源リストとインデックスパスの更新を押してみてください
それでも出ない場合はトレーニングが終わっていないもしくは上手くいっていない可能性があります
出力フォルダ : 変換された音源を出力するフォルダをパスで指定してください
インデックスパスの自動検出 ドロップダウンで選択 : さっき決めたモデル名のものを選んでください
処理対象音声フォルダー : 表情が付いていないプレーンなUTAU音源のwavが入っているフォルダをパスで指定してください。これもドライブ直下にフォルダを持ってきてからの方がいいかもです。

ARPASING音源を変換する場合は、検索特徴率を0.01など極端に下げてください。そうしないと"er"など英語にしか無い発音の変換がうまくいきません。

サンプリングレートの変換

この方法でやっていくとサンプリングレートが48000Hzになってしまうので、44100Hzに変換していきます。
変換するツールはなんでもいいのですが、REAPERの一括変換機能が便利です。有料版にしかない機能かも……
ファイル→ファイルやアイテムの一括変換からできます。

設定画面

上の白いエリアに変換したいファイル/フォルダをD&Dします。

出力するディレクトリを指定することもできますが、先にUTAU音源の構成になるようにファイル/フォルダを固めて置いて音源のルートフォルダごとD&D、Overwrite original filesで上書きするのがラクです。特に多音階でフォルダが分かれている場合は……

Resample modeは画像のものが一番音質が良いと思われます。very slowとありますが全然遅くないです。

エフェクトを利用、とあるようにvstエフェクトをそれぞれのファイルにかけることもできます。たくさんこだわれて嬉しい所です。

右下の全て変換を押して変換してください。

oto.iniの移植

対応するoto.iniを移植します。
変換前のoto.iniを変換後のフォルダにコピーしてきます。

以下統合音源にしたい場合の処理です。

http://nwp8861.web.fc2.com/soft/setParam/index.html

setParamを使用してエイリアス編集するのがラクです。
ツール→エイリアス一括変更から、『_a』を追加したい場合『%a_a』と入力し全wavに対して実行します。
保存したら完了です。

おわりに

そこから統合音源にしたい場合はすればいいし、独立音源にしたい場合はすればいいし、その時に応じたファイル整理をしてください。

「とにかくラクして表情音源をたくさん作りたいよ~~~!!」っていう方の一助になれば幸いです。

ちなみに自音源だとinaduma,apolloのquiet,whisper,attackのARPASING、quiet,attackのja cvvcはRVCでできてます(smogはVocalSynth2の機能で作りました)

ここまで読んでくださって有難う御座いました。

著者情報▼

Bluesky
https://bsky.app/profile/raigekidenka.bsky.social

X
https://twitter.com/raigeki_denka

Youtube
https://www.youtube.com/channel/UC8jNXfDOAErINavPZx7zKLQ

HP
https://sites.google.com/view/togetoge-gizmo/


いいなと思ったら応援しよう!