見出し画像

AIリアルタイムボイスチェンジャーMMVC_v1.5_導入講座_録音編B_Audacityで録音

講座記事一覧 最初と編まとめ
前回:録音編A_Colabで録音 次回:準備編
こんにちは。ピポッです。
AIリアルタイムボイスチェンジャーである
I'mずんだもん王への道_MMVCの導入講座動画を作っている者です。

当記事では
『MMVC_v1.5_導入講座_録音編B_Audacityで録音』
として、無料録音ソフト『Audacity』で
必要な音声を録音・加工する手順を記述します。
具体的には『Audacityをインストールする』
『読み上げ文章を用意する』『録音する』『音声加工する』
『音声のポイント・注意点』といった事を書きます。

なお、録音と音声加工に関しては
v1.5とv1.3で大きく異なる点があります。
v1.5の方が制約が少ないです。

詳細や差異は該当箇所にて記述します。


Audacityをインストール・設定する

音声の録音には、無料の録音ソフト『Audacity』を使います。
別のソフトでも問題ありませんが、音声加工に関しても
当ソフトを使用するため、講座での説明は
『Audacity』準拠になります。ご了承下さい。


Audacityを入手する

ファイルは窓の杜(まどのもり)から入手します。
v3.3.1(23/04/28)を『窓の杜からダウンロード』を押してください。

v3.3.1(23/04/28)を『窓の杜からダウンロード』を押してください。

窓の杜からAudacityをDL(v3.3.1)

『窓の杜からダウンロード』を押すと
『audacity-win-3.3.1-x64.exeをダウンロードしています。』
と表示され、少し経つと『名前を付けて保存』ウィンドウが出ます。
ファイルを実行できる場所に保存してください。

.exeファイルを名前を付けて保存。

保存したら、保存したフォルダを開いて
先程ダウンロードした『audacity-win-3.3.1-x64.exe』を
ダブルクリックしてください。

audacity-win-3.3.1-x64.exeをダブルクリック

『セットアップに使用する言語の選択』では
日本語(使用する言語)を選んで『OK』を押してください。

使用する言語の選択

『Audacity セットアップ』画面が出ますので、
『次へ』を押してください。
『情報』の画面も『次へ』を押してください。

Audacity セットアップ
Audacity セットアップ 情報

『インストール先の指定』は、特に変更希望がなければ
そのまま『次へ』を押してください。
インストール箇所を変更したい方は『参照』から
場所を変更後、『次へ』を押してください。

Audacity セットアップ インストール先の指定

『追加タスク』の選択画面では、
『デスクトップ上にアイコンを作成する』と
『環境設定をリセットする』があります。
『デスクトップ上にアイコンを作成する』は任意でON,OFFにし、
『環境設定をリセットする』はOFFにして『次へ』を押してください。

Audacity セットアップ 追加タスクの選択

『インストール準備完了』の画面で、内容に問題が無ければ
『インストール』を押してください。
しばらくインストールが行われます。

Audacity セットアップ インストール準備完了
Audacity セットアップ インストール中

完了すると『Audacity セットアップウィザードの完了』
と表示されます。
この後にAudacityを使用するため、
『Audacityを実行する』をONの状態で『完了』を押してください。

Audacity セットアップウィザードの完了

Audacityが起動すると、Audacity編集画面とともに
『Audacityへようこそ!』と表示されます。
ヘルプの確認や現在のバージョンを確認できますが、
後から確認できるため『次回からは起動時に表示しない』
をONにして『OK』を押してください。
『OK』を押すと、Audacityの編集画面がアクティブになります。

Audacityへようこそ! は次回から表示しない。

これでAudacityが使用できるようになりました。


Audacityのショートカットキーを登録する(任意)

録音の効率化のため、ショートカットキーを登録します。
記事執筆者のショートカットキーを配布しているため、
今回はこちらを使用(インポート)する場合を説明します。
ショートカットキーの登録は任意です。

ますAudacityショートカットキー配布URLに移動します。
https://ux.getuploader.com/lll_opip/download/8
移動後、『ダウンロード』から
ショートカットキー登録用ファイルがダウンロードできます。

ファイルのアップロードサイト
『emoAudacity-keys.xml』というファイルが配布されている。
下の『ダウンロード』からダウンロードする。

『ダウンロード』を押すと
『ファイルをダウンロードしています。』という画面に変わります。
しばらくすると『名前を付けて保存』画面が出るため、
ファイルを開ける場所に『emoAudacity-keys.xml』を
保存してください。

ダウンロード中画面
ショートカットキーを『名前を付けて保存』
ファイルを開ける場所に保存する。

ファイルがダウンロードできたらAudacityに戻ります。
Audacity画面左上の『編集』から『環境設定』を
選択してください。

Audacity 編集→環境設定

『環境設定』画面が表示されたら、
左から『キーボード』を選択してください。
『キーボード』を選択し『キー割り当て』の画面になったら、
下の『インポート』を押してください。

Audacity 環境設定:キーボード

『Audacityのキーボードショートカットキーが定義されている
XMLファイルを選択…』ウィンドウが表示されたら、
先程保存した『emoAudacity-keys.xml』を選択して
『開く』を押してください。

Audacityのキーボードショートカットキーが定義されている XMLファイルを選択…
先程DLした『emoAudacity-keys.xml』を選択して『開く』

選択後、
『298個のキーボードショートカットキーを読み込みました』
と出たら『OK』を押してください。
その後、『環境設定』ウィンドウの『OK』を押したら完了です。
※Audacityのバージョンによって読み込む個数が変わりますが、
必要な部分は読み込まれています。多分。

Audacity キーボードショートカットキーを読み込んだ結果


録音のデバイス・品質をに設定する

音声録音のためのデバイスと、品質の設定を行います。
品質に関しては後で加工しますが、録音時は若干高めの品質にします。

再び、Audacityの画面上『編集』から『環境設定』を選んでください。
『環境設定』ウィンドウが出たら、左最上部の
『オーディオ設定』を選んでください。

Audacity 環境設定 オーディオ設定の画面

『再生』欄の『デバイス』では、
録音時に使用するヘッドホン等の再生機器を選択してください。
録音音声が正常に録れているか確認するため、可能なら
ヘッドホンやイヤホンに対応するデバイスを選んでください。

『録音』欄の『デバイス』では、
録音時に使用するマイクを選択してください。
実際に音声変換時に使用するマイクと同じ物の方が
変換結果が合いやすいですが、マイクのノイズ等に注意してください。

『録音』欄の『チャンネル』では、
『1(モノラル)』
を選択してください。

Audacity 環境設定 オーディオ設定
『再生』の『デバイス』をヘッドホンに、
『録音』の『デバイス』をヘッドホン付きマイクに、
『録音』の『チャンネル』を『1(モノラル)』に選択する。

『品質』の欄の『プロジェクトのサンプリング周波数』では、
48000Hz』を選択してください。
『サンプリング周波数(デフォルト)』
48000Hz』を選択してください。
最後に、『サンプル形式(デフォルト)』
16ビット』を選択してください。
全て設定したら、『環境設定』の『OK』を押してください。

Audacity 環境設定 オーディオ設定 録音の品質
『品質』欄では周波数を48000Hzにする。
機械学習時は24000Hzにするが、後で行う。
サンプル形式(bit)は16bitを選択する。

以上でAudacity使用の準備が整いました。


読み上げ文章を用意する

ここから機械学習に使用する音声を録音するのですが、
録音する音声は、下記の点を満たす必要があります。
『普段使わない音も含む、様々な音を網羅している』

『様々な音を網羅している』文章リストは
『コーパス』と呼ばれ、自由に使用できる物が存在します。
この『自由に使用できるコーパス』のうち、
今回はMMVC推奨である『ITAコーパス(emotion)』を使用します。


ITAコーパスemotion(感情)文の表示

ITAコーパスはgithubにて公開されています。
下記URLに移動してください。

移動後、表示されているファイルの内
『emotion_朗読者用.pdf』を押してください。

ITAコーパスのgithub
今回は『emotion_朗読者用.pdf』を選択する。

移動後に、最初に『ITAコーパス 原稿 感情音声 100文』
と書かれたファイルが表示されます。
1行ごとに番号と読み上げ文章(かな付き)があります。
この番号ごとに文章を読み、読み上げた際の音声を録音します。

ITAコーパス_emotion(感情) 100文の一部


録音のポイント・注意点

先に読み上げ文章・および録音結果の音声ファイルについて
いくつか注意点を書きます。
注意点を守ったうえで録音してください。


普段の調子で話す

無理に抑揚や音程を付けず、
通常の会話と同じような声で録音してください。
音声変換は話した声に基づいて行われるため
『録音時』と『実際に使う時』の状態が同じ方が変換が良くなります。


文中の「、」「。」は音を区切る。
「・」マークや他の箇所では音を区切らない。

文中の「、」「。」マーク(句読点)は音を止めてください。
例えば『どーすんの、このお店。
完ッ全に閑古鳥が鳴いちゃってるじゃない。』
という文章なら
『どーすんの(ポーズ)このお店(ポーズ)
完ッ全に閑古鳥が鳴いちゃってるじゃない』
という読み方をしてください。

一方で、「・」マーク(中点)等では声を止めず、
そのまま読みを進めてください。

例えば『サウンド・オブ・ミュージック』という文章なら
読みは『サウンドオブミュージック』になります。
加えて、読みにくい文章であっても
「、」「。」以外の箇所では文章を区切らないでください。


最終的な音声長は0.4秒以上15.99秒以下にする

これはMMVCの仕様です。
この時間を満たさない音声は機械学習で除外されます。
データを有効活用するため、各音声ファイルの長さは
0.4秒以上15.99秒以下になるよう調整してください。
『最終的な』という点は
『音声の開始・終了時の無音部分を削った後の音声』を指します。


開始・終了時の無音は削る

開始部分、終了部分の無音は機械学習において障害になります。
録音後に、できるだけ開始・終了部分の無音は削るようにしてください。


ある程度の音量で録音する

音量が小さすぎると音声変換の結果に支障が出ます。
可能なら、Audacityの画面でいえば
最大振幅が0.5から-0.5周辺ほどの音量が良いです。

Audacity録音音声 小さすぎるパターン
Audacity録音音声 適切なパターン
だいたいこのくらいの音量は欲しい。


長い場合は録音を「、」や「。」で分ける(※v1.3は注意)

もし長い文章において、
どうしても普段どおりの口調で読み上げると16秒以上になる場合や、
続けて読み上げる事が難しい場合は
文章の録音を分割してください。
ただし分割する箇所は、文中の「、」「。」に限ります。

例えばITAコーパスemotionの6番
『ストラットフォード・オン・エイヴォンは、
シェイクスピアの生まれたところですが、
毎年多くの観光客が訪れます。』
であれば、
『ストラットフォード・オン・エイヴォンは、
シェイクスピアの生まれたところですが、』

『毎年多くの観光客が訪れます』
の2つの文に分けて録音して構いません(※)
音声の保存時は2文章の区別が付くような名前で保存してください。

(※)v1.3での録音分割の注意点
MMVC_v1.3は『音声に対応するテキストファイル』が必須です。
音声の分割はv1.3でも可能ですが、分割した場合は
『対応するテキストファイルも分割し、内容を音声に合わせる』
『各テキストファイル名は、各音声ファイル名とそれぞれ一致させる』
対応が必要になります。


録音する

録音の手順

録音する際は以下のように
『Audacityがアクティブ画面である』
『ITAコーパスemotion_朗読者用.pdfが読める』
『.pdfをスクロールして次の文章が表示できる』
状態にすると、円滑に音声読み上げ・録音ができます。

録音時の表示例。
非アクティブのウィンドウ(emotion_朗読者用.pdf) を
スクロールできるなら順番に読み上げやすい。

では実際に録音してみましょう。
録音の開始は、Audacityの赤い丸ボタン
または『Rキー』(ショートカットキー)を押すと開始します。
なお、録音時に左に表示される文字が
『モノラル、48000Hz
16 ビット PCM』

と、『録音のデバイス・品質をに設定する』で設定した
パラメータになっている事を確認してください。

録音の開始。
赤い丸ボタンかRキーで録音開始する。
録音時のパラメータが『モノラル、48000Hz 16ビット PCM』
である事を確認する。

録音の停止は、Audacityの黒い四角ボタン
または『Spaceキー』(ショートカットキー)で止まります。

黒い四角ボタンまたは『Spaceキー』で止まる。
図のように波形が表れていたら録音ができている。
図の波形は『えっ嘘でしょ。』を読んだ場合。

録音に問題ないか確認する場合、緑の三角ボタン
または『Spaceキー』(ショートカットキー)で
音声を再生できます。
停止する場合は黒い四角ボタンまたは『Spaceキー』です。

録音の再生。
緑の三角ボタンまたは『Spaceキー』で行う。
止める場合は黒い四角ボタンまたは『Spaceキー』を押す。

録音を消してやり直したい場合
『Ctrlキー』を押したまま『Zキー』を押して
『元に戻す』を行います。
『Ctrlキー』+『Zキー』で1つ前の操作に戻るため
音声が削除されます。

反対に、戻した操作をやり直したい場合
『Ctrlキー』を押したまま『Yキー』を押して
『やり直す』を行います。
『Ctrlキー』+『Yキー』で(元に戻した後の)1つ後の操作に進むため
音声が復元されます。

音声の録音開始地点が0.0秒ではなくなってしまった場合、
Audacity画面の黒い左三角のボタン(|◀)
『Jキー』(ショートカットキー登録済み)を押すことで
0.0秒から録音できるようになります。

音声の開始部分・終了部分の無音削除

読み間違いや音声の区切り箇所、音量が適切で
音声に問題が無ければ保存……
の前に、開始・終了時の無音部分を削除します。

『ITAコーパス読み上げの注意点』
に書いたとおり、保存する音声の長さは
0.4秒以上15.99秒以下にしてください。

この音声長に収まる範囲で、開始・終了部分の無音を削ります。
文末の「、」や「。」による無音部分は削除対象です。
一方で、文中(最後でない)の「、」「。」の無音は
そのままにしてください。

削除手順は以下のように行います。
まず、録音した音声の波形の開始地点ギリギリをクリックします。
図の赤い矢印辺りを押してください。

音声の無音開始部分の削除。
矢印の辺りを押すと、黒い縦線が表れる。

波形開始地点ギリギリをクリックしたまま、
マウスを0.0秒より左へドラッグしてください。
0.0秒から波形開始地点ギリギリまでが水色になるようにします。

音声の無音開始部分の削除。
波形開始地点ギリギリから0.0秒より左までドラッグする。
赤枠のように表示されていたらOK。

この状態で、『Delete』キーまたは『Ctrlキー』を押したまま『Xキー』
を押して、水色の部分(選択範囲)を『削除』します。
削除すると、波形が削除した分だけ左に移動します。

水色の部分(選択範囲)を削除した波形。

これで音声の開始部分の無音が削除できました。
図のとおり若干無音が残ってますが、わずかなら問題ありません。

同じような手順で、終了部分の無音も削除します。
まず、録音した音声の波形の終了地点ギリギリをクリックします。

音声の無音終了部分の削除。
矢印の辺りをクリックすると、黒い縦線が表れる。

波形終了地点をクリックしたまま、
マウスを音声の枠の最後となる右までドラッグしてください。
波形終了地点から音声終了地点まで水色(選択範囲)にします。

音声の無音終了部分の削除。
波形終了地点ギリギリから音声終了地点までドラッグする。
赤枠のように表示されていたらOK。

この状態で『Delete』キーまたは『Ctrlキー』を押したまま『Xキー』
を押して、水色の部分(選択範囲)を『削除』します。

水色の部分(選択範囲)を削除した波形。

これで音声の終了部分の無音が削除できました。
若干無音が残ってますが、わずかなら問題ありません。


音声の保存

以上のように開始・終了部分の無音を削除した音声を、保存します。

音声の保存は、Audacity画面上部の
『ファイル』『エクスポート』『WAVとしてエクスポート』
を選択してください。
『オーディオをエクスポート』画面が表示されます。
ショートカットキーを登録している場合、
『Ctrlキー』と『Shiftキー』を押したまま『Eキー』を押すと
同様に『オーディオをエクスポート』画面が表示されます。

ファイル→エクスポート→WAVとしてエクスポート

『オーディオをエクスポート』画面が表示されたら、
音声保存用の新しいフォルダを作成し、
そのフォルダの中に音声を保存してください。
また保存の際、『エンコーディング』が『Signed 16-bit PCM』
である事を確認してください。

オーディオをエクスポート。
新規にwavフォルダを作成し、その中に保存する。
ファイル名はemotion001のような名前にする。
『エンコーディング』が『Signed 16-bit PCM』
である事を確認したら『保存』を押す。

ファイル名については、半角英数なら自由です(※)
音声を識別しやすくするため、
ITAコーパスのemotionの1文目を読み上げ、録音したファイルなら
ファイル名を『emotion001』にする事を推奨します。

(※)ITAコーパスのemotion文章を分割して録音した場合、
『emotion006-1』『emotion006-2』のように
どの文を読んだか、何番目か分かる名前にしてください。

(※)v1.3の場合、テキストファイルとファイル名が
一致している必要があるため、ファイル名が限定されます。

ITAコーパスのemotion 1文目を録音した場合は
『emotion001』という音声ファイル名にしてください。

ファイル名の設定と『エンコーディング』の確認ができたら
『保存』を押してください。

以上で1つの音声の録音・保存が完了しました。
これを100文(文章分割した場合はその分増加)行います。

新しい音声を録音する場合は、Audacityの画面で
オーディオを『選択』→オーディオの『×ボタン』を押す
または『Ctrlキー』を押しながら『Aキー』を押した後、
『Deleteキー』
を押すことで
現在の音声(録音済み音声)を削除してから、
再び赤い丸ボタン(Rキー)で次の文章を読み上げ、録音してください。


音声加工する

全ての文章を読み上げ、音声ファイル名に保存できたら
保存した音声ファイルを加工します。


Audacityでの一括加工

はじめに、Audacityで
・ハイパスフィルター
・ノイズ低減
・ノーマライズ(音声の増幅・平滑化)
を行います。
上記3種類は音声ファイルの品質を上げるための加工になります。

1ファイルずつ上記の加工を行うのは面倒なため、
Audacityのマクロ機能で一括加工します。
Audacityマクロはショートカットキーと同様に
インポートが可能なため、まず下記URLから
マクロ用ファイル(.txtファイル)をダウンロードしてください
(※)追記2023年05月09日:後述

https://ux.getuploader.com/lll_opip/download/10

ダウンロードURLに移動すると下記のような画面に移るため、
下の『ダウンロード』を押してください。

ダウンロード Audacity用音声加工マクロ(.txt形式)

『ダウンロード』を押すと
『ファイルをダウンロードしています。』という画面に変わります。
しばらくすると『名前を付けて保存』画面が出るため、
ファイルを開ける場所に『Highpath_DeNoise_Normalize6db.txt』を
保存してください。

ダウンロード中画面
Highpath_DeNoise_Normalize6db.txtを
『名前を付けて保存』
 ファイルを開ける場所に保存する。

ファイルをダウンロードできたら、Audacityに移ります。
Audacityの画面上の『ツール』から『マクロマネージャー』
を選択してください。

Audacity 『ツール』→『マクロマネージャー』

すると『マクロの管理』という画面が表れます。
この内、『インポート』を選択してください。
もし『インポート』が見当たらない場合は、
画面下部の『展開』を押してください。

Audacity マクロの管理 『インポート』を選択する。
『インポート』が表示されない場合は、
マクロの管理画面下の 『展開』を押すと、
この図と同じようなサイズになり 『インポート』が表示される。

『インポート』を押すと『マクロをインポート』画面が表示されます。
ここで、先程ダウンロードした
『Highpath_DeNoise_Normalize6db.txt』を選択して
『開く』を押してください。

『マクロのインポート』画面。
『Highpath_DeNoise_Normalize6db.txt』を選択して『開く』。

問題がなければ『マクロの管理』画面に戻り、
『マクロを選択』の中に『Highpath_DeNoise_Normalize6db』
が増えています。

『マクロのインポート』後の『マクロの管理』画面。
『Highpath_DeNoise_Normalize6db』があればOK。

マクロがインポートできたら実行……の前に
手操作が必要な箇所があります。
一旦『マクロの管理』画面右下の『閉じる』を押して、
Audacityの編集画面に戻ってください。

マクロ実行の前に必要な作業は
『環境音(ノイズ)の取得』
『マクロ出力先の設定』です。
以下の手順で環境音(ノイズ)情報を取得、
マクロに依る音声加工の結果出力先を設定します。

  1. 赤い丸ボタンまたは『Rキー』で録音を開始する

  2. なにも喋らないで、3秒ほどしたら録音を止める
    (黒い四角ボタンか『Spaceキー』を押す)

環境音(ノイズ)録音中の表示。
波形は見えないが、画面右上のマイクマーク右に
緑のゲージ(音量)が表れており、音を取得している事がわかる。

3. 録音できた波形の真ん中辺りをクリックし、
1秒ほどドラッグして水色(範囲選択の状態)にする。

環境音(ノイズ)の範囲選択。
1秒ほど選択できていれば問題ない。

4.『範囲選択の状態のまま』、Audacity画面上部の
『エフェクト』から『ノイズを低減』を選ぶ。

Audacity 『エフェクト』→『ノイズを低減』

5.『ノイズを低減』画面が出るので、
『ノイズプロファイルを取得』を押す。

Audacity 『ノイズを低減』
『ノイズプロファイルを取得』を押して
選択範囲(環境音・ノイズ)の情報を渡す。

6.録音した環境音(ノイズ)を削除する。
(オーディオ左の×ボタンから削除、
または『Ctrlキー』+『Aキー』を押してから『Deleteキー』)

7.Audacity画面上部の『編集』から『環境設定』を開く。
8.『環境設定』画面から『ディレクトリ』を選び、
『マクロ出力』のディレクトリを、
『音声を録音したフォルダのフルパス』に変更する。
書き換えたら『環境設定』の『OK』を押す。

Audacity 環境設定 ディレクトリ
マクロ出力のディレクトリ変更。
出力先は『音声を録音したフォルダのフルパス』にする。
図は記事執筆者の場合のパスのため、各自書き換える必要がある。
変更したら『OK』を押す。

以上がマクロ使用前に必要な手順です。

このままAudacityを開いた状態で、再び画面上部の
『ツール』→『マクロマネージャー』を選んでください。
『マクロの管理』画面が出たら、
『Highpath_DeNoise_Normalize6db』を選択した状態で
画面下の『ファイル』を押してください。

Audacity マクロの管理
Highpath_DeNoise_Normalize6dbを選択した状態で『ファイル』選択。

『自動実行処理を行うファイルを選択』画面が出ます。
ITAコーパスemotionを録音したファイルのあるフォルダに移動し、
『Ctrlキー』を押しながら『Aキー』を押して
全ての音声ファイルを選択した状態にしてください。
全音声ファイルを選択状態で『開く』を押すと、
マクロによる音声一括加工が始まります。

自動実行処理を行うファイルを選択。
録音したファイルのあるフォルダに移動し、全選択する。
フォルダには音声ファイル以外が無い状態にする必要がある。

マクロの実行中は『マクロの適用中』という画面が表示されます。
『マクロの適用中』画面には、マクロ処理するファイルの一覧と
現在処理しているファイルが表示されます。
しばらく画面が頻繁に出たり消えたりするため、
完了して『マクロの管理』画面に戻るまでお待ち下さい。

Audacity マクロの適用中(撮影失敗)
頻繁にウィンドウが表示・非表示を繰り返すため撮影できなかった。
マクロの誤作動を防ぐため完了までパソコンの操作は避ける。

問題なくマクロ処理が完了すれば、『マクロの管理』画面に戻った後、
『環境設定』『ディレクトリ』で指定した『マクロ出力』フォルダに
『macro-output』というフォルダが作られます。
フォルダ内は、音声加工したファイルがあります。
加工後の音声ファイル名は加工前と同じになります。

Audacity マクロによる出力結果
問題が無ければ、『環境設定』『マクロ出力』
で指定したフォルダに 『macro-output』というフォルダが作られる。
『macro-output』の中身。
ファイル名は同じだが、加工された音声ファイルが保存されている。

v1.5であれば、以上で音声ファイルの準備は完了です。
お疲れ様でした。

(※)追記2023年05月09日
Audacityマクロ『Highpath_DeNoise_Normalize6db.txt』を実行した結果
途中の音(特にサ行、s の音)が消えてしまう場合、
マクロの内『ノイズを低減』の効果量が強すぎるかもしれません。
以下URLに『ノイズを低減』の効果量を半分にした場合のAudacityマクロ
『Highpath_DeNoise633_Normalize6db.txt』
を置きました。
もし『Highpath_DeNoise_Normalize6db.txt』で音が一部消える場合は、
こちらのマクロを加工前音声に使用、出力してみてください。
https://ux.getuploader.com/lll_opip/download/12


えこでこツールによる周波数の一括変換(v1.3)

MMVC_Trainer_v1.5には
『音声ファイルをMMVC向けに周波数、bit、ノーマライズ調整する機能』
が存在します。
よってv1.5であればこの手順は不要です。

v1.3の場合は上記機能が存在しないため、
事前に『MMVC向けの周波数変更』が必要になります。

MMVCで使用する周波数は24000Hzのため、
音声ファイルを24000Hzにする必要があります。
録音を48000Hzで行った理由は
『後から24000Hzより高い周波数の音声が必要になった時に
ファイルを使い回せるから』です。

周波数変換は『えこでこツール』という無料ソフトを使用します。
ソフトはVectorからダウンロードします。

URL先の『ダウンロードページへ』からダウンロードしてください。
『名前を付けて保存』画面が出ましたら、
開くことができる場所に
『EcoDecoTooL114.zip』を『保存』してください。

えこでこツールのダウンロード(Vector)
『ダウンロードページヘ』でダウンロード先に移動する。
えこでこツールのダウンロード(Vector)
『このソフトを今すぐダウンロード』を押すと ダウンロードが始まる。
えこでこツール 名前を付けて保存。
開くことができる場所に『保存』する。

ダウンロードできたら、
『EcoDecoTooL114.zip』を選択して『すべて展開』します。
『圧縮(ZIP形式)フォルダーの展開』画面が出たら
そのまま『展開』を押してください。
完了すると『EcoDecoTooL114』が表示されます。

『EcoDecoTooL114.zip』を右クリックして 『すべて展開』を選択
『圧縮(ZIP形式)フォルダーの展開』画面
そのまま『展開』を選択する。
展開後の『EcoDecoTooL114』

展開後は『EcoDecoTooL114』フォルダに移動し、中にある
『EcoDecoTooL.exe』をダブルクリックして実行してください。

『EcoDecoTooL114』フォルダ内の表示。
ここから『EcoDecoTooL.exe』を実行する。
EcoDecoTooL.exeの実行画面

ここから、EcoDecoTooL.exeでいくつか設定をします。
最初に『wav出力音質』欄で『音質を指定』を選択します。
その後に右の『…』マークを押して、表示される画面で
周波数:24,000Hz
ビット数:16bit
チャンネル数:モノラル(1ch)

を選択して、『OK』を押してください。

EcoDecoTooL.exeの出力音声設定画面。
『音質を指定』を選んでから、『…』ボタンを押し、表示される画面で
『周波数:24,000Hz』
『ビット数:16bit』
『チャンネル数:モノラル(1ch)』
に変更して『OK』を押す。

次に『出力先フォルダ』欄で『指定したフォルダ』を選択します。
その後に右の『…』マークを押して、
『フォルダーの参照』画面が出たら
Audacityで録音した音声のあるフォルダまで移動してください。

EcoDecoTooL.exeの出力先フォルダの設定。
『指定したフォルダ』を選び、右の『…』を押す。
『フォルダーの参照』画面が出るため、
Audacityでの録音音声があるフォルダまで移動する。

フォルダを選択した状態で、画面左下の
『Make New Folder』を押してください。
『新しいフォルダー』が作られるため、フォルダ名を
『ecodeco』に変更し、『ecodeco』フォルダを選択した状態
『フォルダーの参照』画面の『OK』を押してください。

上の画面から『Make New Folder』を押した後。
『新しいフォルダー』を『ecodeco』に名前変更したら、
『ecodeco』フォルダを選択して『OK』を押す。

『OK』を押すと、EcoDecoTooL.exeの出力先フォルダに
先程選択したフォルダのパス記入されます。
以上でEcoDecoTooL.exeの設定は完了です。

EcoDecoTooL.exeの設定が完了したら、
エクスプローラーで
録音した音声ファイル全てを選択してください。
Ctrlキー+Aキーで全選択
すると早いです。

エクスプローラーで録音音声ファイルを全選択した状態。
下に『100個の項目を選択』(ここの個数は録音したファイルの数)
になっていたら全選択できている。

選択した音声の1ファイルをクリックしたまま、
マウスカーソルをEcoDecoTooL.exeの
『ここにファイルをドロップすれば
変換作業が始まります』
に移動させてから、クリックを離してください。

すると音声ファイルの変換が開始します。

EcoDecoTooL.exeに変換したい音声ファイルを ドラッグアンドドロップする。
EcoDecoTooL.exe 変換中の画面

完了すると『チーン』というSEとともにEcoDecoTooL.exeが終了します。
先程作成した『ecodeco』フォルダに
選択した音声ファイルが全て出力されている事、
音声ファイルのビットレートが384kbpsである事

確認できたら完了です。
ビットレートはエクスプローラーの『名前』の行を右クリックして
表示される項目から『ビットレート』を選択すると表示されます。

エクスプローラーでのビットレートの表示方法。
『名前』近くを右クリックして表示される項目から 『ビットレート』を選択する。
『ビットレート』選択後のエクスプローラー表示。
音声が全て『ビットレート:384kbps』ならOK。

以上でv1.3の音声の準備は完了です。
お疲れ様でした。


音声変換の質を上げるには

端的に言うと
『良い品質の音声データを増やす』
事で音声変換の質が上がる……かもしれません。
データを増やすには、追加で読む文章(コーパス)が必要です。

『ITAコーパス_emotion』以外に文章を追加で読む場合は、
『ITAコーパス_recitation』(朗読、324文)を推奨します。
『ITAコーパス_recitation』はemotionと同様ITAコーパスで、
自由に使用する事ができます。

『ITAコーパス_recitation』を読み上げる場合は、
ITAコーパスgithub(https://github.com/mmorise/ita-corpus)の
『recitation_朗読者用.pdf』を選択してください。
朗読用の文章が表示されるため、
各番号ごとに録音・読み上げてください。
v1.5の場合、一度(15秒以内)に文章が読み切る事が難しい場合は
文章を分けて録音・読み上げても構いません。
分けた場合は、それぞれ音声ファイル名が別になるようにしてください。

※v1.3の場合、同じく文章を分けて録音・読み上げは可能ですが
対応するテキストファイルも分割・ファイル名を音声ファイルと
対応させる点を覚えておいてください。


録音編B_Audacityで録音まとめ

  • Audacityをインストール・設定する
     →Audacityを窓の杜からDL・インストール
     ショートカットキーや録音の設定をする

  • 読み上げ文章を用意する
     →ITAコーパスemotion文を使用する。
     emotion_朗読者用.pdfが読み仮名付きで読みやすい。

  • 録音のポイント・注意点
     →普段の調子で話す、句読点でのみ止める、
     0.4秒以上15.99秒以下、開始・終了時の無音は削る、
     ある程度の音量、長文は分割してもいい

  • 録音する
     →一文ずつ読み上げる、開始終了部分の無音を削る
     これを文章の数だけ繰り返す

  • 音声加工する
     →マクロ手順をDL、Audacityマクロで一括変換する、
     24000Hzに変換する(v1.3)

  • 音声変換の質を上げるには
     →質の良い音声を増やす。
     追加で読むならITAコーパスrecitation文を推奨


最後に(開発者支援)

開発者である天王洲アイルさん(@IsleTennos)は
PIXIV FANBOXを開設しています。
有料プランもあるため、資金の支援が可能です。
MMVC開発を支援したい方は是非支援をお願いします。
無料プランでMMVC開発状況も書く(らしい)ため、
リンク先を登録しておくと便利だと思います。
FANBOXは下記URLになります。


公式サポート音声募集中

MMVC公式サポート音源は常時募集中です(FAQより)
ご自身の声をMMVC公式サポート音源にしたい場合は、
開発者である天王洲アイルさんのTwitter
MMVC DiscordサーバーのIsleTennos#5740(天王洲アイルさん)に
DMにてお問合せください。


MMVCで分からない事があったら(FANBOXで質問)

不明点はMMVCのDiscordサーバーで質問可能ですが、
それとは別の質問用窓口が作成されました。
下記の、MMVC開発者天王洲アイルさんのpixivFAOBOXにて質問可能です。
MMVC関係で分からないことがあり、
Discordに入る事が難しい、質問しにくい、といった場合は
『MMVCに関する開発者に問い合わせ』にて質問してみてください。



次回予告(準備編)

次回は『準備編』として、
Googleドライブへの音声ファイルの配置や
設定ファイルの作成手順を説明します。
やることは
『Googleドライブの指定フォルダに音声ファイルを置く』
『機械学習用ファイルの準備をする』
です。
2023年05月06日現在の
MMVC_TrainerのUIは
この動画シリーズと違います。
機械学習のための設定ファイルを作るために、
具体的にどう操作するのか、変更する点は何かを
記述する必要があるため、
準備編』として記事執筆予定です。


関連リンク

Audacity(窓の杜):https://forest.watch.impress.co.jp/library/software/audacity/
Audacity向けショートカットキー設定ファイル:https://ux.getuploader.com/lll_opip/download/8
ITAコーパス(github):https://github.com/mmorise/ita-corpus
Audacity向け音声加工マクロ設定ファイル:https://ux.getuploader.com/lll_opip/download/10
えこでこツール(Vector):https://www.vector.co.jp/soft/dl/winnt/art/se445019.html

開発者Twitter:https://twitter.com/IsleTennos
開発者FANBOX:https://mmvc.fanbox.cc/
MMVC Discordサーバー:https://discord.com/invite/2MGysH3QpD

MMVCニコニコ大百科:https://dic.nicovideo.jp/a/mmvc
記事執筆者Twitter:https://twitter.com/pipo_lll
記事執筆者Youtube:http://youtube.com/@pipo_lll
記事執筆者ニコニコ:https://www.nicovideo.jp/user/653583/
Imずんだもん王への道(旧版のMMVC導入解説動画)
ニコニコ Youtube
記事執筆者Note:https://note.com/pipo_lll
記事執筆者_欲しい物リスト(何かいただけたら嬉しいです)
https://amzn.to/37XNPOL

講座記事一覧 最初と編まとめ
前回:録音編A_Colabで録音 次回:準備編

いいなと思ったら応援しよう!