NABLASの音声合成技術とSoundStorm

2024年10月9日 10:23

こんにちは。NABLAS R&D事業部です。
NABLASではGoogle社が開発した音声生成モデルである「SoundStorm」の構造をベースとして、日本語に対応した超高速な音声生成モデルを開発しています。2024年9月現在、関連するプレスリリースを2つ出しています。一方はAの話者の声でBの話者が話している内容を出力するモデル、もう一方は入力された日本語テキストを、言語を問わない話者の声を用いて出力するモデルです。

今回のnoteでは、SoundStormをはじめ、開発したモデルに用いた技術の一部を文献と共に紹介してまいります。

SoundStorm

プレスリリース内でも紹介している、Google社が開発した最先端の音声生成モデルです。従来の音声生成モデルから飛躍的に性能が向上し、高速且つ高品質な音声生成が可能で、TPU-v4を使用した環境では3秒程度のオリジナル音声データから本物のような音声をわずか0.5秒の速さで生成します。リアルタイムでの音声生成も可能で、単純な音声生成だけでなく、テキストの読み上げ、対話システム等の応用が期待されている最先端の音声生成モデルで、

3秒程度の音声データからリアルな音声生成が可能
わずか0.5秒で30秒程の音声生成が可能（TPU-v4を使用した環境下）
数秒の対話音声データから、話者同士の声の抑揚や特徴を忠実に模した本物のような対話生成が可能

という特徴を持っています。これまでの音声生成では、入力された音声データの「音の処理」を音響モデルによって行った後に、発言している内容である「意味の処理」を言語モデルによって順に処理していました。しかし、SoundStormを活用することで「音の処理」と「意味の処理」を並列に処理し、クオリティを維持したまま高速な音声生成が可能となりました。

NABLASではSoundStorm内部に構築されているConformerモデルとよばれる、テキストの全体的な文脈と局所的な文脈を同時にとらえることができる技術を搭載したモデルを活用しています。まずは、「音の処理」の技術から紹介します。

NAC ( Neural Audio Codec )

「音の処理」の中でも、ニューラルネットワークを用いて音声データを高品質で効率的に圧縮・復元する技術で、これまでの音声合成モデルで多く活用されてきたのがNACです。従来のAudio CodecであるAACやMP3などは人間の可聴特性に基づき音声データを圧縮していますが、NACは音声の特徴を学習するため、従来法よりも高品質かつ大幅なデータ量の削減を可能としています。

DAC ( Descript Audio Codec )

上記NACモデルのひとつで、Residual vector quantization(RVQ)という手法を採用した音響モデルです。入力された音声データを離散トークン列に変換するため、自然言語処理における離散トークン処理と近い手法で音声処理を行うことが可能です。

こちらの文献にもあるRVQGANは、最初の量子化のあとに再帰的に残差を量子化することで、GANにベクトル量子化を組み合わせたVQGANよりもさらに高精度な音声生成を可能としました。NABLASの音声合成・生成システムではDACを用いた音響モデルにより「音の処理」を行なっています。

BERT

BERT ( Bidirectional Encoder Representations from Transformers ) は2018年に「人間を超える精度を叩き出した自然言語処理」として一躍有名になった言語モデルです。テキストから意味を抽出できるため、「文章を理解する」のはもちろん「文脈を読み取る」ことが可能となりました。文章の要約や翻訳、感情分析など、あらゆる自然言語処理に応用されています。

BERTが出てくる以前の自然言語処理では、文章の先頭から順番に学習していました。しかし、BERTは大量のテキストデータを用いて事前学習されたモデルであり、名前にもある通りTransformerの構造を含み、文章の先頭と後尾の双方向から事前学習するのが特徴です。単語に関してはMLM ( Masked Language Model ) 、文単位ではNSP ( Next Sentence Prediction ) という文章の一部をマスクして次に何が来るか予測するタスクを通じて、テキストの文脈を理解する手法をTransformerが同時に行うため、単語の位置情報を学習し、文脈を読み取って単語を理解することができます。

Japanese HuBERT

音声処理のためにMetaが開発した自己教師型学習モデルHuBERTはBERTと似た構造を持ち、テキストデータだけでなく音声データを扱うことができます。教師ラベルの付いていない音声データを用いて、音声の特徴を予測することができるため、少ない音声データでも高精度な音声処理が可能になりました。

HuBERTは英語のみに対応していましたが、日本のrinna社が日本語の音声に特化したJapanese HuBERTを開発し、Hugging Faceに商用利用可能ライセンスとして公開しています。これにより日本語の研究開発がさらに活発になってきました。NABLASの日本語音声モデルもこちらのJapanese HuBERTを活用し「意味の処理」を行っています。

NABLASの音声合成モデルで活用した技術の多くは、上記で紹介した論文や最新技術を応用して作られています。今回のnoteでは、ほんの一部分を紹介させていただきました。日本語の音声合成および音声生成技術の活用がより活発化するよう、引き続き技術開発を進めてまいります。

音声合成技術や最新AI技術、生成AI、ディープフェイク検知など、興味のある方はぜひコーポレートサイトもご覧ください。
また、インターンをはじめ、リサーチャー、エンジニア、ビジネス職など、幅広く募集もしております。オンラインでカジュアルに私たちとお話ししてみませんか？ぜひ、上記コーポレートサイトやWantedly、Linkedinからご連絡くださいませ！