MoeGoeのCUI環境構築

persona

2022年11月17日 23:54

注意事項

今回の内容については個人の利用に限り、商業用の利用はモデル元に明確に禁止とされているのでやめましょう
モデルはMITのライセンスに従っており、利用元は下記のものになります。

INDEX

概要
インストール方法
1. MoeGoeのダウンロード方法
2. Pretrainedモデルの取得方法
3. ライブラリのインストール
利用方法
1. MoeGoe.pyを利用する方法
2. 直接モデルを利用する場合
まとめ
最後に
コード

1. 概要

今回の内容は少し前にネットで話題になっていたMoeGoeについて、GUIでの利用方法は解説が何箇所か書かれていましたが、CUIの導入方法については書かれていなかったので、簡単に私がどうやって利用できるところまで持ってきたのかを解説したものになります。
その後いくつかの修正を行い、テキストの音声を逐次作成し保存するスクリプトと、最後に私の利用方法について簡単に紹介したいと思います。

2. インストール方法

ここでは、Pythonのインストール方法という部分については省略いたします。ここ側からない方は、別途Anacondaのインストール方法などで検索して、Pythonが利用できるところまでは準備ください。
最初にMoeTTSというGUIのインストールから始めましたが、ここからの改修でCUIにたどり着くことは難しいだろうということでこちらの道は諦めました。

2-1. MoeGoeのダウンロード

その後、ではMoeGoeの本家のGithubを見つけたので、こちらにアクセスし、全体をダウンロードしました。
ダウンロードしたファイルはPythonからアクセスしやすいフォルダに置いてください
https://github.com/CjangCjengh/MoeGoe
2-2. Pretrainedモデルの取得方法
上記のGithub内にPretrained Modelsへのリンクがあるので、こちらから学習済みのモデルをダウンロードしてください。
アドレスは下記のものです。
https://github.com/CjangCjengh/TTSModels
多くのモデルがあり、一番使いやすいのはおそらくVoistock のモデルでしょう
ダウンロードするのは、json形式のコンフィグ情報が入ったファイルと、モデルのpth拡張子のファイルになります。
この二つはわかりやすいように、MoeGoeのフォルダ内にModelsというフォルダなどを作成し、そちらで管理してください。
必要に応じてファイル名はわかりやすい形書き換えましょう

2-3. ライブラリのインストール

MoeGoeのパッケージが利用できるようにするためには、requirement.txt内に含まれているライブラリはインストールする必要があります。
ただし、torchはここでインストールしない方が良いようなので、別途torchのインストール方法などを参考にインストールをしてください。そしてrequirementからはtorchの表記を消してから次に進んでください。
そこでMoeGoeが格納されているフォルダまで移動した上で、下記のコマンドを
このライブラリのインストールが問題となって、後ほどエラーが起きたところがあったので、もしライブラリの読み込みで後ほどエラーが出た際には、numpyとscipyを一度アンインストールし、指定のバージョンに合うように再インストールをするとエラーが解消しましたので参考にしてください

pip install -r requirement.txt

3. 利用方法

ここまでが問題がなければ、インストールは完了です。
実際の利用に際してはまずはMoeGoe.pyをそのまま利用するという方法があります

3-1. MoeGoe.pyを利用する方法

コマンドラインから下記のように記載してMoeGoe.pyにアクセスをすれば、CUIによる利用が可能となります

>python MoeGoe.py

そうすると、モデルとコンフィグファイルのパスを聞かれるので、
先ほど保存したファイルまでのパスを入力してください

Path of a VITS model: path\to\model.pth
Path of a config file: path\to\config.json
INFO:root:Loaded checkpoint 'path\to\model.pth' (iteration XXX)

続いて、テキストの音声化をしたいのか、
音声をMoeGoeのモデルの声に変換したいのかと聞かれるので、
最初の問いにはtと答えます
続いて、話して欲しい言葉を入力し、その後どのモデルで返して欲しいのかを入力します。
最後に保存先のファイル名を入力すれば、数秒ほどでファイルは保存されます。
この際に、日本語の文章の前後に[JA] と入力する必要があります
下記の文章であれば、[JA]こんにちは[JA]と入力する必要があります。

TTS or VC? (t/v):t
Text to read: こんにちは。
ID      Speaker
0       XXXX
1       XXXX
2       XXXX
Speaker ID: 0
Path to save: path\to\demo.wav
Successfully saved!

最後にSuccessfully saved!と画面に表示されたら、処理は完了となります。
該当の音声は保存されてますので再生してみましょう

3-2. 直接利用する方法

前述のところから想像ができる通り、MoeGoe.pyの中に中心的なコードがあることが中のコードを読めば見えてくると思います。
そこで該当ファイルを分解し、自分に合った形で処理をさせるようにしましょう
ここでは詳細は記載しませんが、後ほど6.コードのところにコードを有料で記載しようかと考えています。
私がコード化した内容は下記のようなものになっております。
- モデルとコンフィグのファイルを定数の形で提示すること
- CSVファイルに入っている文章データをランダムに読み込んでくれる機能
- 1人のキャラクターだけではなく、複数のキャラクターモデルを用意し、私の目的に応じてランダムに切り替えることができるようにすること
- ハイパーパラメーターがどれで、変更ができるようにすること
- 文章とキャラクター情報などをセットにして、保存できるようにすること

4. まとめ

今回はMoeGoeのプロジェクトと学習済みモデルを使って各アニメキャラにCUIで音声を作成してもらうまでを記事としてまとめてみました。
くれぐれも今回の内容は誰かに迷惑をかけないように個人での利用に限ってお使いください。

5. 最後に

今回のMoeGoeの導入は個人的に作りたいアプリがあって、その目的のために導入をしてみました。
これで、好きなテキストファイルや、CSVファイルに保存された文章を音声化することができました。
そこで次回は私がこれを使って作ったアプリについて紹介したいと思います。

6. コード

ここから先は

6,549字

¥ 500

期間限定！Amazon Payで支払うと抽選で
Amazonギフトカード5,000円分が当たる

ログイン

この記事が気に入ったらチップで応援してみませんか？