見出し画像

【AI音声】アニメ声自動生成AIが出てきたとか

アニメキャラ2890名分の学習データによる音声自動生成AI

タイトルの画像に特に意味はないです。
なにやらアニメキャラ2890名分の学習データで作られた音声自動生成AIなるものが登場したとの報で、githubページやらデモ動画が公開されています。

「VITS文本转语音生成模型(VITS音声合成モデル)」(Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech)

github:
vits: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

vits-jap.ipynb - Colaboratory
https://colab.research.google.com/drive/18T3XCOzmlOGV1HOfbv6v3zyOxwH1vJLN

GitHub - innnky-vits-japanese- 端到端语音合成模型VITS,日语数据训练
https://github.com/innnky/vits-japanese

動画1(2890体のアニメキャラクターを含むVITS音声合成モデル)

動画2(プリコネの色々なキャラ17名に「ごめユイ」を言わせる)

動画3(VITSモデルを用いてユニの声を生成)

オンラインデモ版


聴いてみた感想としては…

私は技術者ではないのでそういった中身には踏み込まず、動画について元ネタのプリンセスコネクトを一時期ちろっと遊んでた経験を踏まえての感想ってやつなのですが…

原作にある(ありそう)なセリフはともかく、そうではないセリフについては抑揚もイントネーションも違和感バリバリで特に「凄い!」とは感じられなかったかな?
おそらく学習されたデータとプロンプトによる指示にギャップがあればあるほど無味乾燥な音声になってしまうって感じでしょうか。

仮にプリコネに絞れば原作イベント「なかよしX」との戦闘前のやりとり

これがAIで再現できればとんでもない話ですが、当たり前ですがまだまだそれには遥か遠いかなと。

よしんばAIでかなりいい線いけたとしても、プロンプトを作る側が演技についての知識やイメージがなくてはアウツなわけで、普段は無感情なクロエが罵詈雑言を並べられても無感情の中に僅かに侮蔑を込めた鼻で笑う演技とか、少しの間を作ってで実は傷ついたりする演技とか、あと単純にチエル(というか佐倉綾音さん)迫真のキレ芸とか…月並みな表現ではありますが演ずる側もオーダーをする側もプロの仕事は凄いですね。あとユニちゃん8歳

特に意味のないふみふみ(1)

絵に関してはSDやMJそしてNovelAIがあまりに一足飛びにクオリティを上げてきた為にAIに対する期待が高まりすぎてる昨今ですが、音や声の分野については幾分高い壁があるようにも感じます。(例えば先日公開されてたBGMを作るAIは芸風が狭すぎで少々ガッカリな出来でした)

特に意味のないふみふみ(2)

そういう諸々の壁がめでたく技術(あるいは学習データ)でクリアできたとして、出力させる側が思い描くもの…例えば声の場合は「演技」を作るにはどれだけの手間暇時間がかかるか、最近納得のいくイラスト一枚出力するにも結構時間とAnals Anlasを消費する身としては「できたとしても大変そう」以外の感想がなかったりします。

とりとめのない駄文になってしまいましたが今回はこのへんで。

いいなと思ったら応援しよう!