ボイスカット自動化ツール作りました

Nutrients

2020年10月23日 17:42

はじめに

こんにちは、Nutrientsスクリプターのかのさわです。
今回はボイスカットの半自動化ツール「AutoVoiceCut」を公開したので、その紹介をさせていただこうと思います。

ボイスカットとは、声優さんに収録していただいた音声データを台詞ごとに分割してファイル化する作業のことです。

このボイスカット処理をどのように行っているかというと、下画像のように音声データ加工ソフトで一つ一つ切り抜いてファイル出力しています。

この作業がなかなか手間で、ことシスでも5時間くらいはかかってる気がします。
今回紹介するツール「AutoVoiceCut」を使うと、その作業時間を1/10程度に減らすことができると思います。

なお、声優さんや他の開発者さんにヒアリングしたわけじゃないので、「そもそもボイスカットでそんな面倒なことしてないで」って可能性もあるのですが、その場合はこの記事をそっ閉じ……するのではなく、是非とも効率的な方法をtwitterなどで教えていただければと思います。

ツール公開場所

基本的な使い方

AutoVoiceCut.zipを解凍し、その中にあるAutoVoiceCut.exeをダブルクリックするとツールが起動します。
そうすると、下画像のようにファイル指定ダイアログが出現するので、音源ファイル（現在wavのみ対応）を指定してください。
あらかじめ音源wavファイルをAutoVoiceCutフォルダ内に移動しておくと分かりやすいかもしれません。

音源ファイルを指定して数秒～数十秒ほど待つと、下画像のようなダイアログが出現します。
このダイアログが現れた時点で自動ボイスカット処理は終了しており、その結果がリスト化されています。

リスト中の行を選択した状態で「選択音声を再生」ボタンをクリックすると、ボイスカット結果の音声が再生されます。
リスト中のID、音声、台本を相互に確認し、問題がなければ「カット結果を保存」ボタンをクリックし、連番ファイルとして出力します。
保存の際は「プレフィックス（ファイル名の先頭部分）」と「保存形式（wav, ogg, mp3, mp4）」を設定することができます。

カット結果の修正方法

上記の方法では、完全自動でボイスカットを行うことができますが、多くの場合、カット結果と台本にズレが生じるはずです。
というのも、カット位置は無音時間の長さに基づいて決定しており、「台詞間の空白」と「台詞内の沈黙」を区別できないからです。
以下では、そのようなズレが生じた場合の修正方法を説明します。

まず、「カット位置の最短無音時間」を変更することで、自動ボイスカットの精度を向上させることができます。
例えば、『台詞間は必ず2秒以上空けて収録している』ことが分かっていれば、「カット位置の最短無音時間」を2000ミリ秒（=2秒）に設定して「設定無音時間で再カット」ボタンをクリックすると、より台本に近いボイスカット結果を得ることができるはずです。

また、それでもズレが生じてしまう場合に、手動で音声を結合することで修正することもできます。
その場合は、下画像のように結合したい２つの音声を選択した状態で「選択音声を結合」ボタンをクリックします。
そうすると、元々２つの音声だったものが１つの音声として結合され、リスト上のIDも欠番が無いように更新されるので、ズレを修正することができます。

おわりに

ボイスカット自動化ツール「AutoVoiceCut」の説明は以上です。
このツールが普及することで、ボイスありのノベルゲームがたくさん世の中に出ることを楽しみにしています。

最後に宣伝になりますが、サークルNutrientsでは「こと国シスターズ！！」という作品でティラノフェス2020に参加しています。
プレイ＆感想をよろしくお願いいたします。