合成音声を作ってみよう！〜その３〜

2024年1月9日 20:22

あけましておめでとうございます。
今年もよろしくお願いします。

どうも。新年一発目の記事を書いています、にーちぇです。

新年早々不吉な出来事が連続で起こってしまいましたが、この記事でそれについて触れても仕方ないので早速本題の方に入っていきたいと思います。

さて、前回は652のコーパス構文を読み終えたところで終わりだったかと思います。

今回は音声加工作業編ですね。

実はこの読み上げ音声についてですが、
形式が決まっています。

これに関しては「合成音声を作ってみよう！〜その１〜」にて記載していなかったかもしれません。していなかった気がします。

………記載していませんでした。(2024.01.08 に追記しました。)

まぁMYCOEのサイトにはバッチリ記載してあるんですけどね。
ところでどうしてこんな話をしたかって？652文の読み上げの半分を、ステレオで録音してしまったからです。
(ｻﾞﾏｧ乙)

ステレオで収録したデータをモノラルにする
↓
NGテイクであれば弾く
↓
NGテイクでなければ、リップノイズや無音部分を削る(句読点によって生じる無音部分は削らない）
↓
音声データにラベルをつける（名前をつける）
↓
繰り返し

こんな感じの作業を1000以上の音声データに対して行いました。しんど。
一気にやると気が狂うので何日かに分けて行ってました。

ちなみに、音声データにつけるラベルは
EMOTION100_XXX.wav
RECITATION324_XXX.wav
AISATSU_XXX.wav
SETSUZOKU_XXX.wav
︙
※XXXには番号を入れる
にしなきゃいけないみたい。

OKテイクの加工済み音声データが全て揃う
↓
一つのプロジェクトにぶち込む
↓
ノーマライズで音量を揃える
↓
終わり！

ノーマライズしたのは、テイクによって音量にバラつきがあったからです。本当は録音のときに気をつけなきゃいけないんだけど、何日かに分けて収録した都合上そうもいかなくって。

Ω<ﾅ､ﾅﾝﾀﾞｯﾃｰ

実はMYCOEのニコニコ大百科やMYCOEを作る系の動画を見ると、コーパス録音に特化させた録音ツールがあるらしい。

…なんてこった、もっと早く気づいていれば……

文章を表示させながら収録が出来る！
NGテイクは上書きされるので余計な音声データも増えないし、
ラベル付けもオートで出来るらしい。

はぁ！？！？！？！？！？！？！？！？
便利すぎないか？？？？？？
…まぁ自分はボイスレコーダーを使った関係上、このOREMOは使えなかったんですけどね。。。

詳しい使い方は以下の動画を参考にしてください。

さて、次はついにGoogleColabで学習させていくぞ！機械学習編お楽しみに！

いいなと思ったら応援しよう！