SHIRO音声自動ラベリング用の資料
オープンソースの音声自動ラベリングツールであるSHIROを使用して音声のラベリングを行うためのチュートリアル資料の配布所です。
DropBox上に、ZIPファイルとして置かれています。
個人の趣味用途を想定して、作成した資料です。同梱されているテキストに記載されている「使用上のお願い」を、ご確認お願いします。
資料のダウンロードリンク
SHIROチュートリアル
2023/08/06更新、バージョン0.701
用途
ITAコーパスのような音声コーパスに対する自動ラベリングを行う用途を、主に想定しています。音声コーパスは、AIトークソフト向けのAI音声合成ライブラリを制作する際に、必要となるものです。ただし、音声ラベリングを必要とする個人向けのAIトークソフトがあるかどうかは、不明です。
音声ラベリングとは、音声データの中にどの音素がどのタイミングにどの程度の長さで含まれるかを示すデータを作成する工程のことをさします。
歌声DBの自動ラベリングを行うための手順も、資料に含みます。歌声DBは、NNSVSやENUNUのようなAI歌声合成ソフト向けのAI歌声合成ライブラリを制作する際に、必要となるものです。ただし、歌声DBの自動ラベリングの用途においては、歌声DB制作を効率化する上で十分な精度が出ることを確認できていません。
手動ラベリング
自動ラベリングだけではある程度の精度しかだせないため、手動ラベリングを組み合わせる手順でのラベリングを想定しています。資料の手順では、手動ラベリングにsetParamを使用します。
SHIRO入力ファイル
資料には、SHIROの自動ラベリングを実行するために必要となる入力ファイルである「index.csv」のツールによる作成手順を含みます。そのため、音声コーパスの種類が異なる場合にも、対応可能です。
自動ラベリングの精度確認
資料には、SHIROによる自動ラベリング結果の精度をツールにより簡易に確認するための手順を含みます。
Linux
SHIROは、Linux上で動作します。資料の手順では、Windows上の仮想化ソフトウェアにCentOSをインストールしてSHIROの実行環境を構築します。そのため、Linuxに関するある程度の操作スキルが必要となります。
補足
歌声DB制作の手順については、「歌声DB制作用の資料」の記事に置かれている資料にて、説明をしています。
資料では、SHIROのGitHub上にあるSleepwalking様による解説のほか、神瀬来未様によるSHIRO/音素自動ラベリング(環境ビルド~ラベリング)の記事を、参考にさせていただきております。
問い合わせ
資料に関する問い合わせは、ツイッターアカウントのほうへお願いします。