これから爆増するであろう声質変換を使ったサービス。自分に合ったサービスの見分け方とは？

2019年10月13日 13:11

声質変換を使ったサービスも徐々に増えてきました。

声質変換って何？という方は、こちらのブログをご参照ください。

技術が進歩して参入障壁が下がってくるにつれて、これから益々盛んになってくることは間違いないと思います。

そんな声質変換サービスですが、自分に合ったサービスはどうやって見分ければ良いのでしょうか？

ポイントとなる観点を解説していきたいと思います。

そもそもどういう流れで声が変換されるのか？

声質変換は機械学習を利用して行うため、大まかに、
1. 変換モデル作成
2. 変換処理
というステップに分かれます。簡単に図にしてみました。

スクリーンショット 2019-10-13 12.36.16

従って、
いかに効率的に変換モデルを作成するか？
いかに精度良く、かつ素早く変換するか？
というところが見分けるポイントになってきます。

変換モデルを作成する際には、声を変換する元となる入力話者の音声データと、実際に変換したい目標話者の音声データが必要となります。

まずは、音声データのサンプルを集めるのが簡単かどうかという観点があります。

大きく分けると、パラレルデータが必要か否か？で分けられらます。

パラレルデータというのは、入力話者と目標話者で全く同一の内容を読み上げたサンプルということです。
例えば、「こんにちは。今日は良い天気ですね。」という文章を、入力話者と目標話者の双方に読み上げてもらうということですね。

もちろん、パラレルデータを必要とするモデルの方が、サンプルを集めるのは大変になる訳ですが、その分、変換の精度が良くなったりします。

次に、音声サンプルがどれくらい必要か？といった観点があります。

数十秒程度の音声データがあれば良いものもあれば、数時間分の音声データが必要なものもあります。

中には、様々な入力話者の音声データを集め、平均的な入力話者を実現することにより、入力話者の音声サンプルを必要としないようなモデルも存在しています。

あとは、変換モデル作成の学習時間という観点があります。

一般の利用者はあまり意識する必要はないところですが、数分で作成できるものから、数十時間かかるものまであります。

弊社の技術でいうと、
・パラレルデータは不要
・30秒程度の音声サンプルで十分
・変換モデル作成は1分程度
という特徴があるため、変換モデル作成を効率的に行うことを優先したモデルと言えるでしょう。

変換処理のポイントは以下の2点だけだと思います。
・精度
・変換速度

精度というのは、どれだけ目標話者の声質に近づけているか？という観点です。

これについては、明確な定量的指標が定まっていないので、実際に聞いてみて比較するしかないですね。

とはいえ、精度については、数年後にはどのサービスを同レベルのクオリティになってくるんじゃないかと予想しています。

次に、変換の速度です。

要は、リアルタイムに変換できるかどうかといった観点ですね。

当然、リアルタイムに変換できれば、利用用途は広がります。

弊社の技術も、理論的にはリアルタイム変換は可能ですが、まだ実装中といったところです。

いかがでしたでしょうか？

なるべく分かり易くまとめたつもりですが、専門的な内容も含まれているのでピンとこない方もいるかもしれませんね。

これから、どんどん声質変換のサービスは増えてくると思うので、利用してみたい！という方は参考にしていただけると幸いです。

株式会社voiceware
代表取締役CEO 田村一起
http://voiceware.co.jp/

この記事が気に入ったらサポートをしてみませんか？