見出し画像

最新の音声合成ソフトと技術の進歩

こんにちは、Voicyでエンジニアをしているせんちゃんこと、千田です。

この記事は、Voicyのエンジニアチームが運営するVoicyチャンネル "voi-chord" (ぼいこーど) で話した内容をテキストにしたものです。

voi-chordは、Voicyのエンジニアメンバーがいろいろなテーマで語るチャンネルです。この記事はその第二号となっています。

今回は2022年3月11日に更新した「第73回 最新の音声合成ソフトと技術の進歩」という放送より。

↓ 音声で聴いてみたい方はこちらからどうぞ

voi-chordで話すようになったばかりの頃の放送なので、このnoteを書きながら懐かしさを感じています。笑

それでは本題です。


音声合成ソフト VOICEPEAK

今日のテーマは音声合成です。
音声合成は、コンピュータに人間のような音声を作らせる技術です。

VOICEPEAKというソフトを紹介させてください。

発売日: 2022年3月11日
体験版は1月下旬くらいに公開されていました。

このソフトを使うと、入力したテキストからすごく自然な、人間らしい声を合成することができます。

これを聞くと、ナレーターやアナウンサーのお仕事が減っていく未来もそう遠くはないと感じさせられます。こういったお仕事が全く必要なくなると主張したいわけではありません。音声の世界にいるため声で仕事をされている方へのリスペクトは当然あります。その上でも、一部の活動は置き換えられていきそうだと感じました。

あるいは、生身の人間によるナレーションがすごく特別なものになるのかもしれません。

以下に参考となる記事を貼っておきます。
実際に合成された音声が聞ける動画も含まれています。


音声合成技術の変遷

ここからは音声合成という技術についてざっくりと書いていきます。

音声合成はもともと「人間の音声を実際に録音したものを切り貼りする」という形式で実現されていました。
事前に録音した音声を一音ずつに切って保存しておいて、必要な音を順番に並べていくと好きな言葉を作ることができる、というコンセプトです。

その後、あるとき、「音声合成って、"文章" から "音声" への変換だよね」という考え方が生まれます。
文章というデータを音声合成装置に入力すると、音声というデータが出てくる、そんな変換装置を作ることができれば、音声合成ができるはずということです。

そして、「ビッグデータ」、「AI」、「ディープラーニング」などのバズワードとともに、コンピュータの性能向上や、技術の発展によって、人間が頑張って工夫するよりも、大量のデータから直接その関係性を自動的にコンピュータが理解する仕組みを作る方が性能が高くなるという時代が訪れます。
これは音声だけでなく画像、翻訳など、いろいろな分野で使われる技術です。

(最近は「DX」とかの方が流行っていて、「AI」という言葉自体はあまり聞かなくなりましたね。ブームは若干下火のような気もしますが、世間一般で言われなくなっただけで、いまも研究は進んでいます。)


人間の手を介さずにコンピュータが自動的にテキストから音声を合成できるようになると、次の課題が発生します。

それが、「あとから微調整できない」ということです。

「ここのアクセントがちょっと変だな」とか、「ここは強調してほしい」といったことを実現するのがとても難しいです。

人間に読んでもらう場合であれば、お願いすればそのように言い直してもらうことが可能です。
もちろん、人間なので完璧に思った通りにはならないかもしれませんし、何回も言い直しをお願いするのはお互いしんどいかもしれませんが。
とはいえ、伝えればすぐ直してもらえます。

完全に自動で音声を合成するという方法では、変換装置の中身がブラックボックス化してしまっているため、人間に読み上げてもらう場合のように調整することができないのです。

「完全に自動で音声を合成する」というアプローチで精度を上げてきた音声合成技術ですが、それを踏まえて今度は人間の「ここはこんな風に読んでほしい」という情報をどのようにコンピュータに与えるか、という研究も行われています。

ここまでの話を振り返ると、もともとは音を切り貼りすることで、言うなれば手動で実現していたものを、完全自動化することで性能が向上しました。そして、今度は自動化したものに人間の手を加えるにはどうすれば良いかという流れになっています。

上で紹介したVOICEPEAKは自動で音声を合成するソフトウェアですが、音の高さを一文字単位で自分で設定できます。(すごい)

このように、音声合成技術では「全て自動でできるように」ということと「人間がコントロールできるように」ということが、振り子のように交互に進展していくイメージを自分は持っています。この二つの側面は、それぞれ別の場面で有用なため、どちらも必要です。

片方の技術の発展がもう一方にも影響を与えることで相互に発展していく。技術の発展において、こうした構造は他の場面でも見られる普遍的なものなのではないかと思いました。



音声コンテンツヘビーリスナーの僕と話してみたい方はこちらからご連絡ください!


この記事が気に入ったらサポートをしてみませんか?