見出し画像

AIリアルタイムボイスチェンジャーMMVC_v1.5_導入講座_準備編

注意(2023年10月21日):話者IDが2023年10月20日を境に変更されました。
特にv1.3については話者ID
(自分の声やずんだもんの声に対する番号、107とか100とか)
が変更されています。
記事の話者IDは一部古いため、
変更内容と対応方法はこちらをご確認願います。

講座記事一覧 最初と編まとめ
前回:録音編B_Audacityで録音 次回:学習編
こんにちは。ピポッです。
AIリアルタイムボイスチェンジャーである
I'mずんだもん王への道_MMVCの導入講座動画を作っている者です。

当記事では『準備編』として、
Googleドライブへの音声ファイルの配置や
機械学習用ファイルの準備手順を説明します。
やることは下記2点です。
『Googleドライブに音声ファイルを置く』
『機械学習用ファイルの準備をする』

2023年05月06日現在のMMVC_TrainerのUIは、
この動画シリーズと違います。
これはMMVC_v1.3, MMVC_v1.5どちらともです。
よって、2023年05月06時点では当記事をもとに
『Create_Configfile.ipynbの実行』まで進める事を推奨します。


Googleドライブに音声ファイルを置く

この手順は文字どおりの操作を行うのですが、
『Colabで録音/Audacityで録音』と『v1.5/v1.3』で
必要な作業が異なります。

v1.5の場合を説明しつつ、補足としてv1.3の場合の説明をします。


Googleドライブに音声を置く

構築編で使用したアカウントで、
Googleドライブにアクセスしてください。
アクセス後、マイドライブの
『MMVC_Trainer-v1.5.0.0_SiFiGAN』フォルダ
(v1.3は『MMVC_Trainer-main』フォルダ)に移動してください。

構築編で使用したGoogleドライブのマイドライブ。
v1.5は『MMVC_Trainer-v1.5.0.0_SiFiGAN』フォルダ、
v1.3は『MMVC_Trainer-main』があればOK。
『MMVC_Trainer-v1.5.0.0_SiFiGAN』フォルダの中。
図はv1.5の場合になる。v1.3も似たような構成になる。


音声配置:Colabで録音の場合

(※)v1.3の場合は音声ファイルの配置が自動で完了しているため
『v1.3』『Colabで録音』の場合、この手順を飛ばしてください。

v1.5の場合で、『録音編A_Colabで録音』で音声録音した場合、
音声ファイルは
『dataset/textful/00_myvoice/wav/』
フォルダに存在します。
録音に合わせて、textful以降のフォルダが自動で作られています。

datasetフォルダの中。 Colabで録音した場合、『textful』フォルダが増えている
dataset/textful/00_myvoiceフォルダの中
『text』フォルダと『wav』フォルダが存在する。
dataset/textful/00_myvoice/wav/フォルダの中。
正しく録音できていれば、『emotion001.wav』から
『emotion100.wav』まで存在する。

『dataset/textful/00_myvoice/wav』フォルダ内に
音声ファイルがある事を確認したら、
一旦『dataset』フォルダまで戻ってください。
その後、『datasetフォルダにある00_myvoiceフォルダ』を
削除してください。

『dataset』フォルダにある『00_myvoice』フォルダを選択して削除。
選択すると上にゴミ箱のアイコンが出るため、これを押すと削除できる。
『dataset/textful』フォルダにある『00_myvoice』フォルダを誤って消さないようにする。
消すのは、最初の時点で『dataset』フォルダにある『00_myvoice』フォルダである。

『dataset』フォルダにある『00_myvoice』フォルダを削除したら、
『textful』フォルダに再び移動します。
『textful』フォルダにある『00_myvoice』フォルダを選択して、
Ctrl+Xキーで切り取りしてください。

『textful』フォルダにある『00_myvoice』フォルダを 『切り取り』する。
切り取りされると左下に 『アイテムを切り取ってクリップボードに貼り付けました』
と表示される。

切り取り後、今度は『dataset』フォルダに移動して
Ctrl+Vキーで『貼り付け』してください。

成功すれば、『dataset』フォルダに『00_myvoice』フォルダが表れ
左下に『00_myvoiceを「textful」から「dataset」に移動しました』
と表示されます。

『textful』フォルダにあった『00_myvoice』フォルダを
『dataset』フォルダに『貼り付け』(移動)。
左下に『00_myvoiceを「textful」から「dataset」に移動しました』 と表示される。

以上で音声ファイルの配置は完了です。


音声配置:Audacityで録音の場合

エクスプローラーにある音声ファイルを全て
マイドライブ/MMVC_Trainer-v1.5.0.0_SiFiGAN/dataset/00_myvoice/wav
フォルダにコピーします。(※)
まずGoogleドライブで
『MMVC_Trainer-v1.5.0.0_SiFiGAN/dataset/00_myvoice/wav』
フォルダまで移動してください。
(※)v1.3の場合は
『MMVC_Trainer-main/dataset/textful/00_myvoice/wav』
になります。

『dataset/00_myvoice』フォルダ。
この中の『wav』フォルダに移動する。
(v1.3は『dataset/textful/00_myvoice』フォルダ)

『wav』フォルダに移動したら、
エクスプローラー側の操作を行います。
録音し、マクロ加工後の音声を保存したフォルダ
(『macro-output』フォルダ)を開いてください。(※)
こちらのファイルをコピーします。
(※)v1.3は『えこでこツールで周波数変換した後の
音声があるフォルダ『ecodeco』フォルダ』を開いてください。

『macro-output』フォルダにある Audacityマクロ加工後の音声。
(v1.3はAudacityマクロ加工後に、更に周波数変換した 『ecodeco』フォルダを開く)

Googleドライブの画面とエクスプローラーの画面が
表示された状態(エクスプローラーが前に来る状態)にします。
次に、フォルダを開いたらCtrl+Aキーで全選択し、
その状態でファイルをクリックしたまま
Googleドライブまでマウスカーソルを移動させてください。

『ファイルをドロップして次のフォルダにアップロード』
とGoogleドライブに表示されたら、マウスのクリックを離してください。

音声ファイル全てをGoogleドライブの
『wav』フォルダにドラッグアンドドロップし、
音声ファイルをアップロードする。

すると音声ファイルのアップロードが開始されます。
完了すると右下に『100個のアップロード完了』と表示されます。
音声を分割録音していた場合は、その個数に応じた表示になります。

音声ファイルのアップロード完了画面。

以上で音声ファイルの配置は完了です。


Googleドライブにテキストを置く(v1.3)

この手順は『v1.3』かつ『Audacityで録音』でのみ必要です。
『v1.5』、『Colabで録音』ではこの手順を飛ばしてください。

MMVC_v1.3では機械学習に
『音声に対応したテキストファイル』
が必要になります。

音声ファイルの配置と同時に、テキストファイルを置きます。

  • Colabで録音の場合
    (※)v1.3の場合は音声ファイルの配置と同様、
    テキストファイルの配置も自動で完了しているため
    『v1.3』『Colabで録音』の場合。この手順を飛ばしてください。

  • Audacityで録音の場合
    MMVC用にITAコーパスemotion100文を分割したファイルが
    用意されているため、それを使います。
    githubのMMVC_Trainer-mainの内、
    『※MMVC用にテキストを分割したITAコーパスです。ご利用ください。』
    の下行にあるURLからダウンロードできます。
    https://drive.google.com/file/d/14oXoQqLxRkP8NJK8qMYGee1_q2uEED1z/view?usp=sharing

githubのMMVC_Trainer-mainでのテキスト配布箇所。
『Install』の少し下、『Usage』の項目にある。

『MMVC向けITAコーパス文章ファイル_配布用.zip』
というファイルが表示されるため、ダウンロード・展開してください。

『MMVC向けITAコーパス文章ファイル_配布用.zip』 のダウンロード。
右上のボタンからダウンロードできる。

ITAコーパスemotion文に加えITAコーパスrecitation文もあり、
さらにひらがな・カタカナがあるため、展開に少し時間がかかります。
今回使用するのは『ITA_emotion_kana_100file』内のファイルです(※)

展開後の『MMVC向けITAコーパス文章ファイル_配布用』の中身。
emotion文だけでなくrecitation文も存在する。
また、ひらがな・カタカナのパターンが存在する。
今回使用するのは『ITA_emotion_kana_100file』フォルダ内ファイルになる。

(※)1文を分割して録音した方は
先に該当するファイルを『音声ファイルと同じ名前』で
『音声の内容とテキストの内容が一致する』よう修正してください。

例えばemotion006文
『ストラットフォード・オン・エイヴォンは、シェイクスピアの生まれたところですが、毎年多くの観光客が訪れます。』
について、emotion006-1.wavとして以下を録音したとします。
『ストラットフォード・オン・エイヴォンは、シェイクスピアの生まれたところですが、』
もう1つ、emotion006-2.wavとして以下を録音したとします。
『毎年多くの観光客が訪れます。』

この場合、『ITA_emotion_kana_100file』フォルダにある
emotion006.txt
『ストラットフォードオンエイヴォンワ、シェイクスピアノウマレタトコロデスガ、マイトシオオクノカンコーキャクガオトズレマス。』
を、以下のように分解します。

emotion006-1.txtを作成、内容は以下です。
『ストラットフォードオンエイヴォンワ、シェイクスピアノウマレタトコロデスガ、』
emotion006-2.txtを作成、内容は以下です。
『マイトシオオクノカンコーキャクガオトズレマス。』

ファイル分割した場合、元になったemotion006.txtなどは
(対応する音声が無いため)削除してください。

(※1文を分割した場合:終了)


『ITA_emotion_kana_100file』フォルダ内を開いたら、
Googleドライブ側で操作を行います。
『マイドライブ/MMVC_Trainer-main/
dataset/textful/00_myvoice/text/』

のフォルダ内まで移動してください。

『マイドライブ/MMVC_Trainer-main/dataset/textful/00_myvoice/text/』 フォルダの中。
ここに.txtファイルを配置する。

移動後、Googleドライブとエクスプローラー
(『ITA_emotion_kana_100file』フォルダ内)両方を表示、
エクスプローラーが前に来る画面状態にしてください。

エクスプローラー側でCtrl+Aキーで.txtファイルを全選択し、
その状態でファイルをクリックしたまま
Googleドライブまでマウスカーソルを移動させてください。

『ファイルをドロップして次のフォルダにアップロード』
とGoogleドライブに表示されたら、マウスのクリックを離してください。

.txtファイル全てをGoogleドライブの
『text』フォルダにドラッグアンドドロップし、
.txtファイルをアップロードする。

Googleドライブ右下にファイルアップロードの画面が出て、
『100個のアップロード完了』と出たら
テキストファイルの配置は完了です。
(分割していた場合は100ではなく分割後の総ファイル数)

.txtファイルのアップロード完了画面。


機械学習用ファイルの準備をする(v1.5)

ファイルの準備ができたため、機械学習用に使うファイルを生成する
Create_Configfile.ipynbを実行します。
v1.5とv1.3で画面や仕様が若干違うため、分けて説明します。


03_Create_Configfile.ipynbを実行する

Googleドライブの
『マイドライブ/MMVC_Trainer-v1.5.0.0_SiFiGAN/notebook』
フォルダにある
『03_Create_Configfile.ipynb』をダブルクリックで開いてください。
『プレビューできません』と出る場合は
『録音編A_Colabで録音』の
『アカウントにGoogle Colaboratoryをインストール』

を参考に、GoogleColaboratoryをインストールしてください。

マイドライブ/MMVC_Trainer-v1.5.0.0_SiFiGAN/notebook
フォルダの03_Create_Configfile.ipynb。
このファイルを使用して学習用ファイルを準備する。

開くと以下のようなColab画面が表示されます。

03_Create_Configfile.ipynb。
基本的にはファイル内に書いてある事どおりに進めれば準備できる。


03_Create_Configfile.ipynb:0 ノートブックの準備

順番に実行していきます。
最初に『0 ノートブックの準備』の枠の
左にある●▶のボタンを押してください。

03_Create_Configfile.ipynb:0 ノートブックの準備

十数秒して、●▶の左に緑のチェックマークが付き、
『0 ノートブックの準備』を下にスクロールして最下部に
『log: パッケージのインストールが完了しました。』
と表示されていたら完了です。次に進んでください。

03_Create_Configfile.ipynb:0 ノートブックの準備 実行結果。
log: パッケージのインストールが完了しました。』 と出ていればOK。


03_Create_Configfile.ipynb:1 Notebookの準備

次に『1 Notebookの準備』を実行します。
『1 Notebookの準備』の枠の
左にある●▶のボタンを押してください。

03_Create_Configfile.ipynb:1 Notebookの準備

1,2分ほどしてから、『1 Notebookの準備』枠の最下部に
『log: パッケージのインストールが完了しました。』
と表示されていたら完了です(※)。次に進んでください。

(※)2023年05月08日時点だと、実行結果の最後に
『WARNING: The following packages were previously imported in this runtime:
[numpy]
You must restart the runtime in order to use newly installed versions.』
と出ますが、ここでは無視して大丈夫です。

03_Create_Configfile.ipynb:1 Notebookの準備 実行結果
『log: パッケージのインストールが完了しました。』 と出ていればOK。
その後の 『WARNING: The following packages were previously imported in this runtime: [numpy] You must restart the runtime in order to use newly installed versions.』 は一旦無視する。


03_Create_Configfile.ipynb:2 リポジトリの準備

次に『2 リポジトリの準備』を実行します。
『2 リポジトリの準備』の枠の
左にある●▶のボタンを押してください。

03_Create_Configfile.ipynb:2 リポジトリの準備

ボタンを押すとすぐ緑のチェックマークが付きますが、
まだ完了していません。
『2 リポジトリの準備』の枠に
Platform:Colab
Path:/content/drive/MyDrive/MMVC_Trainer-v1.5.0.0_SiFiGAN

と出てきます。
フォルダ名の変更をしていなければ、このまま進めます。
表示を確認したら、下にある『次へ』を押してください。

03_Create_Configfile.ipynb:2 リポジトリの準備 実行後
『Platform』と『Path』、『次へ』が表示される。
Colabで操作していて、特にフォルダ名を変えていなければ そのまま『次へ』を押す。

『次へ』を押すと
『このノートブックにGoogleドライブの
ファイルへのアクセスを許可しますか?』
と出ます。
『Googleドライブに接続』を押してください。

『このノートブックにGoogleドライブの ファイルへのアクセスを許可しますか?』
音声ファイル等を使用するためにアクセスが必要なため、 『Googleドライブに接続』を押す。

『Googleドライブに接続』を押すと新しい画面で
『アカウントの選択』が表れます。
使用するアカウント(表示中のアカウント)を押してください。

アカウントの選択。
使用するアカウント(表示されているアカウント)を押す。

『Google Drive for desktopがGoogleアカウントへの
アクセスをリクエストしています』
と出るため、下にスクロールして『許可』を押してください。

『Google Drive for desktopがGoogleアカウントへの アクセスをリクエストしています』
問題なければ『許可』を押す。

しばらくして
『Mounted at /content/drive
log: Google Driveのマウントが完了しました。

/content/drive/MyDrive/MMVC_Trainer-v1.5.0.0_SiFiGAN』
と出たら次に進んでください。

03_Create_Configfile.ipynb:2 リポジトリの準備 実行結果
『log: Google Driveのマウントが完了しました。』 と出たらOK。


03_Create_Configfile.ipynb:3 config系Fileを作成する

次に本命となる『3 config系Fileを作成する』を実行します。
ここで機械学習用ファイルを作ります。
『3 config系Fileを作成する』の枠の
左にある●▶のボタンを押してください。

キャプ:03_Create_Configfile.ipynb:3 config系Fileを作成する

ボタンを押すとすぐ緑のチェックマークが付きますが、
まだ完了していません。
『3 config系Fileを作成する』の枠下側に
config_na...:train_config
sample_ra...:24000
character...:101
​multi_speakers:
☑​normalize:
☑​normalize_backup:

と表示されます。

チュートリアルでずんだもんになる場合、
最初から表示されている設定で進めます。
表示が出たら『次へ』を押してください。

03_Create_Configfile.ipynb:3 config系Fileを作成する 実行中
一部途切れているが、正確には
config_name:train_config
sample_rate:24000
character_select:101 ​
multi_speakers: ​
normalize: ​
normalize_backup:
と書かれている。
config_name:configファイルの名前。変えなくてよい。
sample_rate:音声の周波数。
MMVCは基本24000Hzで機械学習の実行や データの作成をしているため、
24000Hzにする必要がある。
character_select:キャラ番号(音声のID)。
MMVCの学習では『事前学習済みモデル』という物を使う。
このモデルの中の『どのキャラが何番の声か』を指す。
101がずんだもん、102が九州そら、103が四国めたん、
104が春日部つむぎ、105が刻鳴時雨に該当する。
今回はチュートリアルでずんだもんになるため、
101にしておくと品質が上がる(かもしれない)。
​multi_speakers:複数話者で機械学習する場合に使う。
チュートリアルでは使わないためOFFにする。
​normalize:音声(自分の声、目標=ずんだもんの声) の
ノーマライズ(音量の平均化)をするかどうか。
したほうが音質がよくなるため、ONにする。
​normalize_backup:ノーマライズ実行時のバックアップ有無。
ノーマライズ音声は元音声とは別個に作られるが、 そのままだと元音声を上書きしてしまう。
元データを残すために、バックアップをONにしておく。

『次へ』を押すと実行が始まります。
まずノーマライズ音声の作成が行われます。
フォルダごとに実行していきます。

03_Create_Configfile.ipynb:3 config系Fileを作成する ノーマライズ中
大量に表示されるが、終わるまで待つ。
空のフォルダは『dir is 0 wav files』のように出るが
今回は『dataset/01_target』フォルダと 『dataset/textful』フォルダは無視してよい。

ノーマライズが終わると、
次にconfig系ファイルの作成が始まります。
ノーマライズ含め、10~20分としばらく時間がかかるためお待ち下さい。

03_Create_Configfile.ipynb:3 config系Fileを作成する 
configファイル作成中 最初の方で
『/usr/local/lib/python3.10/dist-packages/torch/hub.py:286: UserWarning: You are about to download and run code from an untrusted repository. In a future release, this won't be allowed. To add the repository to your trusted list, change the command to {calling_fn}(..., trust_repo=False) and a command prompt will appear asking for an explicit confirmation of trust, or load(..., trust_repo=True), which will assume that the prompt is to be answered with 'yes'. You can also use load(..., trust_repo='check') which will only prompt for confirmation if the repo is not already trusted. This will eventually be the default behaviour warnings.warn(』
と出ているが、これは無視して大丈夫なWARNINGのため無視する。
03_Create_Configfile.ipynb:3 config系Fileを作成する configファイル作成中
完了したファイルは
『dataset_etc/F0/1205_zundamon/RECITATION324_058.npy dataset/1205_zundamon/wav/RECITATION324_058.wav|101|dataset_etc/units/1205_zundamon/RECITATION324_058.npy|dataset_etc/F0/1205_zundamon/RECITATION324_058.npy|dataset_etc/cF0/1205_zundamon/RECITATION324_058.npy|372.80908618677034』
と表示される。
『dataset_etc/F0/1205_zundamon/RECITATION324_058.npy』 は作成されたファイルを指す。 『dataset/1205_zundamon/wav/RECITATION324_058.wav|101|dataset_etc/units/1205_zundamon/RECITATION324_058.npy|dataset_etc/F0/1205_zundamon/RECITATION324_058.npy|dataset_etc/cF0/1205_zundamon/RECITATION324_058.npy|372.80908618677034』
は、|の区切りごとに
『対象の音声ファイル|音声のID|作成されたファイル|
作成されたファイル(別種)|対象の音声のピッチ高さ・特徴量』
を表している。

最後の出力ファイルとして
dataset_etc/F0/1205_zundamon/emoNormal_100.npy
が表示され、一番最後に
『configファイルの作成が完了しました。』
と表示されたら、config系ファイルの作成は完了です。

03_Create_Configfile.ipynb:3 config系Fileを作成する 実行結果
順番通りに進むと最後に 1205_zundamon/emoNormal_100 が処理される。
最後の行に 『configファイルの作成が完了しました。』 と出たらOK。


03_Create_Configfile.ipynb:4 確認

最後に、正常にconfig系ファイルが作られたか確認します。
『4 確認』に進んでください。
『4 確認』の枠の
左にある●▶ボタンを押してください。すぐに結果が出ます。

03_Create_Configfile.ipynb:4 確認

実行結果として

Directory: /content/drive/MyDrive/MMVC_Trainer-v1.5.0.0_SiFiGAN /filelists
train_config_Correspondence.txt
train_config_textful.txt
train_config_textful_val.txt
train_config_textless.txt

Directory: /content/drive/MyDrive/MMVC_Trainer-v1.5.0.0_SiFiGAN configs
baseconfig.json
myprofile.conf
train_config.json


と表示されたら、問題なくconfig系ファイルは作成されており、
機械学習の準備は完了です。お疲れ様でした。

03_Create_Configfile.ipynb:4 確認 実行結果
表示内容は、上半分が
『マイドライブ/MMVC_Trainer-v1.5.0.0_SiFiGAN/filelists』
フォルダの中身を表している。
下半分は
『マイドライブ/MMVC_Trainer-v1.5.0.0_SiFiGAN/configs』
フォルダの中身を表している。
『filelists』フォルダには下記4ファイルがあればOK。
『train_config_Correspondence.txt』『train_config_textful.txt』
『train_config_textful_val.txt』『train_config_textless.txt』
『configs』フォルダには下記3ファイルがあればOK。
『baseconfig.json』『myprofile.conf』『train_config.jsn』
(※)表示内容が実行結果上のサンプルと一部異なり
『_val_textless.txtが無い』『myprofile.confがある』が、
これはv1.3からv1.5への仕様変更で増減したファイルになる。
v1.5では『_val_textless.txtは不要』『myprofile.confは必要』 なため、
表示サンプルと異なるが実行結果に問題ない。


機械学習用ファイルの準備をする(v1.3)

Googleドライブの
『マイドライブ/MMVC_Trainer-main/notebook』
フォルダにある
『01_Create_Configfile.ipynb』をダブルクリックで開いてください。
『プレビューできません』と出る場合は
『録音編A_Colabで録音』の
『アカウントにGoogle Colaboratoryをインストール』

を参考に、GoogleColaboratoryをインストールしてください。

マイドライブ/MMVC_Trainer-main/notebook フォルダの
01_Create_Configfile.ipynb。
このファイルを使用して学習用ファイルを準備する。

開くと以下のようなColab画面が表示されます。

01_Create_Configfile.ipynb。
基本的にはファイル内に書いてある事どおりに進めれば準備できる。


01_Create_Configfile.ipynb:0 ノートブックの準備

順番に実行していきます。
最初に『0 ノートブックの準備』の枠の
左にある●▶のボタンを押してください。

01_Create_Configfile.ipynb:0 ノートブックの準備

十数秒して、●▶の左に緑のチェックマークが付いたら完了です。
『0 ノートブックの準備』下部には何も表示されません。
次に進んでください。

01_Create_Configfile.ipynb:0 ノートブックの準備 実行結果。
何も表示されないが、●▶の左に 緑のチェックマークが付けばOK。


01_Create_Configfile.ipynb:1 Google Driveをマウント

次に、『1 Google Driveをマウント』の枠の
左にある●▶のボタンを押してください。

01_Create_Configfile.ipynb:1 Google Driveをマウント

『このノートブックにGoogleドライブの
ファイルへのアクセスを許可しますか?』
と出ます。
『Googleドライブに接続』を押してください。

『このノートブックにGoogleドライブの ファイルへのアクセスを許可しますか?』
音声ファイル等を使用するためにアクセスが必要なため、 『Googleドライブに接続』を押す。

『Googleドライブに接続』を押すと新しい画面で
『アカウントの選択』が表れます。
使用するアカウント(表示中のアカウント)を押してください。

アカウントの選択。 使用するアカウント(表示されているアカウント)を押す。

『Google Drive for desktopがGoogleアカウントへの
アクセスをリクエストしています』
と出るため、下にスクロールして『許可』を押してください。

『Google Drive for desktopがGoogleアカウントへの アクセスをリクエストしています』
問題なければ『許可』を押す。

画面が戻り、
『1 Google Driveをマウント
Mounted at /content/drive』

と表示されたら完了です。次に進んでください。

01_Create_Configfile.ipynb:1 Google Driveをマウント 実行結果
『1 Google Driveをマウント
Mounted at /content/drive』
と表示されたらOK。


01_Create_Configfile.ipynb:2 MMVC_Trainerディレクトリに移動

次に、『2 MMVC_Trainerディレクトリに移動』の枠の
左にある●▶のボタンを押してください(※)

(※)本来は●▶ボタンの前にフォルダ名の確認が必要ですが、
ここまでの説明でフォルダ名はv1.3では
『マイドライブ/MMVC_Trainer-main/』
で進めてきたため、フォルダ名を変えていなければ修正不要です。

01_Create_Configfile.ipynb:2 MMVC_Trainerディレクトリに移動
ここまでの手順においてフォルダ名を変えていなければ、
『directory:』をそのままに●▶ボタンを押す。

実行後すぐに結果が表示されます。
『2 MMVC_Trainerディレクトリに移動
/content/drive/MyDrive/MMVC_Trainer-main』

と表示され、以下に『MMVC_Trainer-main』フォルダ内にある
フォルダやファイルの名前が出ていたら問題ありません。
次に進んでください。

01_Create_Configfile.ipynb:2 MMVC_Trainerディレクトリに移動 実行結果  はじめに
『2 MMVC_Trainerディレクトリに移動
/content/drive/MyDrive/MMVC_Trainer-main』

と表示されており、以降『MMVC_Trainer-main』フォルダ内 フォルダ、
ファイルが表示されていたらOK。


01_Create_Configfile.ipynb:3 ライブラリのインストール

次に、『3 ライブラリのインストール』の枠の
左にある●▶のボタンを押してください。

01_Create_Configfile.ipynb:3 ライブラリのインストール

数分すると緑のチェックマークが付き、最下部に
『Successfully installed pyopenjtalk-0.3.0』
(0.3.0は2023年05月09日時点の物になる。
ここの値は、日によって変わる可能性がある)
と出たら問題ありません。次に進んでください。

01_Create_Configfile.ipynb:3 ライブラリのインストール 実行結果。
最後に 『Successfully installed pyopenjtalk-0.3.0』
とあればOK。 0.3.0の所は変わる可能性がある。


01_Create_Configfile.ipynb:4 config系Fileを作成する

次に本命となる『4 config系Fileを作成する』を実行します。
ここで機械学習用ファイルを作ります。
『4 config系Fileを作成する』の枠の
左にある●▶のボタンを押してください。

01_Create_Configfile.ipynb:4 config系Fileを作成する
パラメータの設定項目があるが、
チュートリアルで ずんだもんになる場合はそのまま変更せず ●▶ボタンを押す。
v1.3とv1.5の違いとして以下のような点があるため注意する。
『キャラ番号(音声のID)が1つズレている
(v1.3はずんだもん=100、v1.5はずんだもん=101。 他も1番ずつズレている)』
『v1.3には周波数変換機能とノーマライズ機能が無い』

少しして色々と表示が出て、最後に
『dataset/textful/1205_zundamon/wav/emoNormal_101.wav|100|sil-f-...』
と表示されていれば問題ありません(※)
表示内にある
『WARNING: JPCommonLabel_insert_pause() in jpcommon_label.c: First mora should not be short pause.』
は無視して問題ありません。

01_Create_Configfile.ipynb:4 config系Fileを作成する 実行結果。
順番に進むと最後に 『dataset/textful/1205_zundamon/wav/emoNormal_101.wav』
が処理され、その結果が表示される。

(※)『4 config系Fileを作成する』実行後、
Ctrl+Fキーを押し、ブラウザの検索機能を表示してください。
検索ウィンドウが出たら『sil--sil』
と入力し、1つも検索に出ない事を確認してください。

ブラウザの検索機能(Ctrl+Fキー)による 『sil--sil』の検索。
検索結果が0なら問題無い。

もし該当する箇所があったら、
その行に該当するファイルは
『音声・テキストともにGoogleドライブからは削除してください』。
これは学習編でのエラー予防になります。
削除後に改めて『4 config系Fileを作成する』を実行してください。

sil--silが存在した場合の出力。
該当する箇所は『No phoneme.』とも出る。
この画面の場合だと2ファイルのsil--sil(No phoneme.)があるため、 該当ファイルとなる 『dataset/textfu/01_target/wav/emoNormal_003.wav』 『dataset/textfu/01_target/wav/emoNormal_005.wav』 『dataset/textfu/01_target/text/emoNormal_003.txt』 『dataset/textfu/01_target/text/emoNormal_005.txt』
をGoogleドライブから削除してから、
改めて『4 config系Fileを作成する』を実行する必要がある。


01_Create_Configfile.ipynb:5 確認

最後に、正常にファイルが作成されたか確認します。
『5 確認』の枠の
左にある●▶のボタンを押してください。

01_Create_Configfile.ipynb:5 確認

すぐに結果が表示されます。
内容が
『5 確認
Directory: filelists
train_config_Correspondence.txt
train_config_textful.txt
train_config_textful_val.txt
train_config_textless.txt
train_config_val_textless.txt

Directory: configs
baseconfig.json
train_config.json』

と表示されたら、問題なくconfig系ファイルは作成されています。
機械学習の準備は完了です。お疲れ様でした。

01_Create_Configfile.ipynb:5 確認 結果
図の通りに表示されていたらOK。


準備編まとめ

  • Googleドライブに音声ファイルを置く
     →指定の場所に音声ファイルを置く
     v1.3、Audacity録音なら.txtファイルも置く

  • 機械学習用ファイルの準備をする(v1.5)
     →03_Create_Configfile.ipynbを上から順に実行する

  • 機械学習用ファイルの準備をする(v1.3)
     →01_Create_Configfile.ipynbを上から順に実行する
     最後に『sil--sil』が無いか検索しておく。


最後に(開発者支援)

開発者である天王洲アイルさん(@IsleTennos)は
PIXIV FANBOXを開設しています。
有料プランもあるため、資金の支援が可能です。
MMVC開発を支援したい方は是非支援をお願いします。
無料プランでMMVC開発状況も書く(らしい)ため、
リンク先を登録しておくと便利だと思います。
FANBOXは下記URLになります。


公式サポート音声募集中

MMVC公式サポート音源は常時募集中です(FAQより)
ご自身の声をMMVC公式サポート音源にしたい場合は、
開発者である天王洲アイルさんのTwitter
MMVC DiscordサーバーのIsleTennos#5740(天王洲アイルさん)に
DMにてお問合せください。


MMVCで分からない事があったら(FANBOXで質問)

不明点はMMVCのDiscordサーバーで質問可能ですが、
それとは別の質問用窓口が作成されました。
下記の、MMVC開発者天王洲アイルさんのpixivFAOBOXにて質問可能です。
MMVC関係で分からないことがあり、
Discordに入る事が難しい、質問しにくい、といった場合は
『MMVCに関する開発者に問い合わせ』にて質問してみてください。



次回予告(学習編)

次回は『学習編』として、
いよいよボイチェン用の機械学習を行います。
機械学習により『自分の声』を『目標の声(ずんだもん)』
にするデータを作り、リアルタイムボイチェンを目指します。
やることは
『機械学習を実行する』
です。
実行結果ファイルの出力や機械学習の推移について
説明が必要なため『学習編』として記述予定です。
v1.5とv1.3で機械学習する『Train_MMVC.ipynb』の内容が
一部異なるため、別項目としてそれぞれ記述します。


関連リンク

Googleドライブ:https://drive.google.com/drive/
Google Colab(Google Colaboratory):https://colab.research.google.com/
アカウントにGoogle Colaboratoryをインストール:https://note.com/pipo_lll/n/nebe780394098#abe19f05-7702-4882-8edc-49887d24c6e5

開発者Twitter:https://twitter.com/IsleTennos
開発者FANBOX:https://mmvc.fanbox.cc/
MMVC Discordサーバー:https://discord.com/invite/2MGysH3QpD

MMVCニコニコ大百科:https://dic.nicovideo.jp/a/mmvc
記事執筆者Twitter:https://twitter.com/pipo_lll
記事執筆者Youtube:http://youtube.com/@pipo_lll
記事執筆者ニコニコ:https://www.nicovideo.jp/user/653583/
Imずんだもん王への道(旧版のMMVC導入解説動画)
ニコニコ Youtube
記事執筆者Note:https://note.com/pipo_lll
記事執筆者_欲しい物リスト(何かいただけたら嬉しいです)
https://amzn.to/37XNPOL

講座記事一覧 最初と編まとめ
前回:録音編B_Audacityで録音 次回:学習編

いいなと思ったら応援しよう!