どこまで行っても、やっぱ「人っぽくない合成音声」も良いんだよな

さかじょん

2023年5月7日 17:24

こんばんは。GWを明けようとしているさかじょんです。
GWは結構いろいろできたので、これからもお仕事がんばろうと思います。

さて、今回はあえて言えば重音テトと足立レイの話です。初音ミクも少しはご登場いただけるのではないでしょうか。

重音テトSynthesizer V（SV）が登場

先日2023/4/27、株式会社AHSさんより、「重音テトSynthesizer V」が発売されました。

そういえば「重音テト」の基本情報あんまり知らないなあという人は、以下の重音テト公式サイトより復習できます。性別はキメラです。

重音テトSVの発売により、ニコ動のランキングもテトさんのカバーやオリジナル曲がかなり多く見られるようになり、可不やいわゆるAIきりたんが発売されたときのような盛り上がりを見せたように思います。

従来の重音テト（UTAU）との対比

重音テトSVは、Synthesizer Vというパワフルな音声合成技術により、かなり「人っぽい」歌声を実現しています。重音テトオフィシャルサイトでも、「え？生きてる？」というキャッチが使われており、その歌声の人間っぽさには私も「すげ～」と思っています。

一方、従来の重音テトはUTAUというソフトウェアを使っています。

私も当時に合成音声界隈にいたわけではないため、ニコニコ大百科の記述を辿っていくと、UTAUは2008年に初期版がリリースされたソフトウェアとなっています。その後にアップデート（2009年に連続音音源の実装など）がされていくものの、令和のSynthesizer Vに比べ、UTAUが相対的に原始的な音声合成技術であることは言を俟たないでしょう。

UTAUテトの歌声は（もちろんサンプリング元は人間の声ですが）、正直言ってかなり機械音です。これの聴き比べをするなら、____naturalさん（@____natural）の「Shinagawa」がぴったりです。

また、いよわさんがボカニコ中に投稿するとかいうアホなこと（誉め言葉）をした「バベル」も重音テトSVと重音テトUTAUを両方使っているので、どっちの歌声か聞き比べることができます。

聴き比べると、重音テトSVの歌声の自然さが際立ち、技術の進歩ってすげ～って思いますよね。

でもねえ！！！　良いよね！！！　UTAUテトの声！！！！
俺は！！　ともすればｻﾞﾘｻﾞﾘ聴こえるのUTAUテトの声が大好き！！
そういうことが言いたくてこの記事を書いてるんです！　わはは！

合成音声が「人らしくない」という価値

失礼、取り乱してしまいました。笑

以前にも書いたことがありますが、合成音声には複数の表現の方向性があって良いものと考えています。それは、「人間の声の代替を自由に操れる」という価値と、「人間には出せない音（歌声）を出せる」という価値です。

ここで明確にしておきたいのは、AIシンガーとVOCALOID（をはじめとする従来型合成音声歌唱ソフトウェア、以下「VOCALOID」）の表現性、指向性の違いです。

同じ「合成音声ソフトウェア」ではありますが、私はAIシンガーとVOCALOIDを次のように捉え分けることができると思います。
AIシンガーは「誰もが人間の『声』（可不で言えばオリジナルである花譜さんの声、に極めて近いもの）を、自分の打った通りに歌わせること」を実現するものであり、

一方VOCALOIDは「VOCALIDの歌唱＝歌詞を乗せられる『音』を、パラメータをいじりつつ出す」ことができるものと捉えます（その意味ではより楽器に近いと言えるかもしれません）。

両者はともに表現の一手法でありますが、「人間の声」と「ソフトウェアの音」というように、その指向性や価値が違うと捉えられると思います。

https://note.com/sakajohn7/n/n6b89257a4791

ここでは、VOCALOIDとAIシンガーという対比としていますが、今回の重音テトの話で言えば、UTAUとSynthesizer Vがこれに対応します。
（というか、最近のVOCALOIDや初音ミクNTと比べて、UTAUはさらに原始的な音声合成技術なので、その対比はより明瞭かもしれません）

人間っぽい声を自由に操り、自分の好きな声に、自分の歌ってほしいものを歌ってもらえるというのは大きな価値です。

一方で、UTAU（やVOCALOID）は、もはや人間の歌声の代用ではなく、固有の価値を持ちます。私は「合成音声らしい音声」や、そのパラメータの多様さに魅力を感じます。

そのようなポイントに魅力を感じる人がいるということは、最近の足立レイ周りの盛り上がりからも言えることなんじゃないかと思います。

足立レイとは

足立レイとは、みさいる氏による等身大美少女ロボット制作プロジェクトおよびそのロボット名である。

ロボットの構成要素製作に伴い、キャラクターとしての設定も用意されている他、歌声合成ソフト「UTAU」用に足立レイの音源も製作されている。また、喋りを目的にした音源製作を目指し、株式会社エーアイのAITalkを活用した「レプリボイス（Replivoice) 」クラウドファンディングも開始。無事成立し、2021年10月23日から音声合成ソフトの一種として製品の一般販売も行われている。

https://dic.nicovideo.jp/a/%E8%B6%B3%E7%AB%8B%E3%83%AC%E3%82%A4

足立レイUTAU音源は、100％合成された音声で、サンプリング元となるいわゆる「中の人」が存在しません。その分、歌声もかなり「メカニカル」です。（ただ、「中の人」がいないUTAU音源は足立レイに固有な特性ではありません。楽器音とかからもUTAU音源は作れます）

足立レイも、やはりいよわさんの「熱異常」（2022年）以降かなりポピュラーな存在になったと感じます。

まさに機械音といった感じですが、これを聴きたい人がこの世には結構いるってことですよね。その意味で、合成音声は単なる人間の声の代用ではなく、（私のように）そこに独自の良さを感じている人が一定数いるということだと信じています。

（丁度タイムラインで見かけたのでささみにくさんのツイート引用）

これマジでやばくない？？？？？？？
海外勢みたいなカバーのヤバさしてる

UTAUテト、改めて声死ぬッッッッッほど好きやわ
SVもUTAUも重音テトなんだってハッキリわかんだね

【重音テト】ラヴィ【UTAUカバー】https://t.co/wvA2NddM1l #sm41545087 #ニコニコ動画 pic.twitter.com/KPOuxegXs1
— ささみにく@5/7ボカチバDJ (@sasamiku_39) May 6, 2023

おわりです

今回は、合成音声が「人っぽさ」に磨きをかけてきた一方で、「人っぽくない」合成音声もそれはそれで良さがあるはずだよねって話でした。

ただ、このような価値の2方向性も、2項対立的に考えるのではなく、程度問題として捉えた方がいいと思っています。
例えばAIシンガーは比較的「人っぽさ」に表現の価値があると言いましたが、完全に人間の歌声を代用するだけの透明なツールであるとは思えません。例えば可不はオリジナルである花譜さんとは違ったキャラクターをその存在範疇に宿し、多くの人に愛されています。カレーうどんとかね。

それをまるっと考えても、合成音声音楽は本当にいろいろな楽しみ方がありますし、近年その幅はぐんぐん広がっていると感じます。それはきっとステキなこと。これからも楽しみに楽しんでいきたいですね！

ではでは、今回はこんなところで。最後まで読んでいただきありがとうございました。

モチベが上がります（当社比）