AivisSpeechへの個人的な所感

山田結城@羽子

2024年12月14日 00:43

はじめに

この記事はAivisSpeechに関する所感を述べるものである。

AivisSpeechは何？

AivisSpeechとは最近リリースされた音声合成ソフトウェアの一つである。

AivisSpeechはStyle-Bert-VITS2をベースにした音声合成システムとVOICEVOXをベースに作成されており、VOICEVOX APIで呼び出して使うことができる。

これにより出力された音声の品質はノイズが気になるといったことは特にないが、イントネーションなどの違和感はあるというのが個人の感想である。

また、調声の自由度は比較的低めで、アクセントの調節はできるが細かなイントネーションの調節はできないので、単に入力された文字を読み上げるサービス(読み上げbotなど)に組み込むことに向いていると言えるだろう。

AivisSpeechの問題

AivisSpeechで利用可能な音声合成モデルはAivisHubというページで共有される。

しかしそこで問題があると考えられる音声合成モデルが登録されたという問題があった。

AivisHubにつきまして、一部でご指摘いただいております件に関しまして、現在社内で対応を慎重に検討しております。
社内で正式な結論が出るまでの間、該当する類似モデルは非表示の設定とさせていただきます。
— Aivis Project (@aivis_project) November 22, 2024

Aivis ProjectはJPchain株式会社によって運営されているプロジェクトである。したがって、Aivis Projectには企業としてコンプライアンスや企業倫理といった点に関して今後適当な対応をすることを期待している。

AivisSpeechの今後の展望予想

AivisSpeechの公式から提供されている音声合成モデルは多くはない。そのため、キャラクター文化との結びつきが希薄であり、ソフトウェアトーク分野には大きなインパクトがあるとは言い難い。

一方でITAコーパスの読み上げなどに頼らないため、音声合成化の障壁はかなり低くなったということができ、ユーザーモデルの発展には寄与するかもしれない。

しかしながら、音声合成モデル作成の簡易化は、権利者に無断で音声の学習を行えるという問題も存在する。このような点からAivisHubに関してはサービスの維持に人的コストを割くことにはなるだろう。

商業的な側面からは、公式モデルが少ないといった点や、各音声合成モデルの対応窓口がわかりづらいといった点から、積極的に使う動きにはならないだろうと個人的には予測している。

最後に

音声合成ソフトウェアが若干の飽和状態を迎えるほどに溢れている昨今に、企業による参入はとても挑戦的であり、今後の動向に注目したい。