KONAMIがAI歌声合成に参入だって。 #ラフダイ簡易レビュー

いぬいぬ

2024年4月6日 01:40

こんばんわ、いぬいぬです。

みなさん、今年の4/1のエイプリルフールは楽しみましたか？
色々面白いのがありましたよね～

中でも一番面白かったのが、あのコナミさんが何と歌声合成ソフトのVoiSonaに新規参入！ってやつですね！

公式サイトもしっかり作ってるし、公式アカウントもあるし、VoiSona公式サイトでは販売ページもあるし、いや～凝ってるな―――――――――――

え？

※エイプリルフールではありません

なんとエイプリルフールじゃありませんでした…！
コナミの公式YouTubeにドーン！と載ってる上に、
発表と同時に売ってます…！

ええ、買って確かめました。

「コナミ参入！」もすごいですが「4つ同時！？」もすごいです。
なぜ 4/1 に…？？？？？

ゲーム業界からは3つ目？

ブシロードのバンドリ！から「夢ノ結唱」シリーズ、
バンダイナムコの電音部から「りむる」に続く3つ目ですが、
この2つはVoiSonaではなくて姉妹ソフトのCeVIO AI向けにリリースされていました。

今回の「LAUGH DiAMOND」はVoiSona（ボイソナ）のみ です。

VoiSona？って人向け案内

ちょっと古いけど解説動画出してるので見てね！
noteでも記事をいくつか出してます。

最近しゃべる方の「VoiSona Talk」もでました。
※まあ今回のLAUGH DiAMONDは歌う方だけど。

こんなに「わかってる」公式あった？

さて…
色んな企業がAI歌声合成ソフト、特にVoiSona（や姉妹ソフトのCeVIO AI）に音源を出してますが、
多分史上最高に"分かってる"公式です。

VoiSona/CeVIOの特徴である歌手の癖の再現をアピール
その売りを活かすために合唱・リエゾン向けに4音源同時リリース
CVに合成音声界隈でおなじみの声優さんやガチ元アイドルを起用
最近の生成AI不正利用の懸念に対して中の人以外は学習してないアピール
キャラクターと音源の区別付けやすくするために表記を別に
ちゃんとした利用規約や二次創作ガイドラインがある
ちゃんと「トークはできないよ」と書いてある

正直、これをちゃんとわかって実現できてるところは公式や大企業でも多くは無いんですよね…
後から出してきたからとはいえ、これはすごい。

VoiSona/CeVIOの特徴である歌手の癖の再現をアピール

最近はいろんなAI歌声合成ソフトがあるので、出すだけなら別にVoiSonaである必要はありません。

本シリーズの特徴は、学習元となったCVの得意な表現や歌い方のクセを矯正せず、そのまま再現したことです。
使いやすいAIライブラリにするため、ピッチやテンポや歌い出しなどの特徴を、矯正・修正することがありますが、「LAUGH DiAMOND」シリーズはそれを最小限にとどめています。
その結果、人間らしさ溢れる歌声を表現できるようになったほか、他のシンガーとのデュエットやトリオなど、複数人で構成されるユニット曲が作りやすくなっています。
声が混ざりにくく、ユニゾンも綺麗に歌うことができます。

「LAUGH DiAMOND」シリーズが、他のAI歌声ライブラリと違う特徴はどこですか？

VoiSona(と同じエンジンの姉妹ソフトのCeVIO)のコンセプトは「人間（歌手）」です。「楽器」のコンセプトのVOCALOIDやUTAUとは別物なのですが、正直これの区別がついてない公式も多くて、
「なんでVoiSonaやCeVIOで音源だしたの？」って正直思う音源の公式さんもあります。

中の人の癖を（良くも悪くも）そのまま出す
他の人のデータを使わない・混ぜない
コンセプトは歌手（人間）

っていうVoiSonaの特徴むけの音源として「LAUGH DiAMOND」シリーズがでてるのはすごいことです…！

公式サイトのFAQ見てほしいんですが、普通の人が疑問・懸念に思うことから、いぬいぬみたいな合成音声ファンが気になるところまで「前もって」用意されてます。

散々ソングの説明してるのに「トークはありますか？」って…わざと質問するのはよっぽどの合成音声ファンなんですが…何で用意してあるんだ…。

何この公式さん？なんか専門の調声ブログとかやってます？

…やってるわ。

FAQや調声講座とか内容がタダモノじゃない

(合成音声ファンも)知りたいことが全部書かれてるFAQ
VoiSonaやCeVIOの公式よりくわしい調声講座

ココ、タダモノじゃないです。

いや、コナミさんなんでそりゃ超大手大企業、タダモノじゃないんですが…
「ボカロとかちょっとかじったことがあります」程度じゃなくて、
CeVIOユーザー互助会Wikiとか読み込んでるレベル。

1.0と2.0のボコーダー特性の違いをちゃんと説明してる（へえ詳しいな）
それを商品アピールとして売ってる（←！？？？）

ふつーは「音質がよくなったから2.0つかってね！」てアピールするのが
関の山なんですが（大抵の音源の公式さんはそう）…

VoiSonaやCeVIOの公式ってマニュアルはあるけど、
基本的なこういうコンセプトとか、1.0/2.0の違いの意味とかちゃんとした分かりやすい情報が全然ないことで有名（※いぬいぬ調べ）なんですよね。
ぜんぜん公式が説明してくれないんです！！！
なんか「論文あるから読んで」、みたいな投げっぱなしというか…
ユーザーはそこそこ時間かけて使いこなして初めてわかるというか。

なんか企画した人、ガチで昔からCeVIOやってる人ですよね？？？？？誰！！！！！！！！？

めちゃくちゃ気になります！！！！！！！！！！

やってみたよ

４つもあるんでいつもみたいなくわしいレビューは無理なんで、速報簡易レビューでおねしゃす！

やまだかのん

【やまだかのん】可愛くなりたい／HoneyWorks【cover/VoiSona】

#kzn ちゃんカバーの調声流用です。ハモに他の3人入れて、公式の売りのユニゾンやってみました。

えー、このかのんちゃん、中の人は
合成音声界隈ではおなじみ「東北イタコ」ちゃんと同じ、木戸衣吹さんです。
姉妹ソフトでVoiSonaと同じエンジンのCeVIO AIで音源がでてるんですよね。

そこで気になる禁断の比較をやってみました。

ちょっとした癖とか声質はやっぱり似てます。歌いだしのVOLのライン、「レ」の頭のピッチ線の形状とか、1.0同士はクセがそっくりです。
（※VoiSona やCeVIOの音源はバージョンが変わると癖はそのままに細かい歌い方が変わります。1.0/2.0はそれ以外に音質が大きく違います）

違うのは語尾で、公式の記述にもあるように語尾がぎゅっと跳ね上がる歌い方をします。いわゆる「可愛らしい」歌い方をよりするような歌唱演技になってますね～。
”アイドル的歌い方になった東北イタコさん2.0”
的な感じがありますね…。
でもまあ同じ音源ではないですね。

中の人が同じなので「東北イタコ」もそうでしたが、早口は得意です。

CeVIO AI東北イタコを持ってる方は、ダブリングとかユニゾンとかそっくりな声質でできる…ということもできるかも。

ちなみにVoiSonaともCeVIO AIとも違うAI歌声合成ソフト、NEUTRINOにも東北イタコちゃんはいます。CeVIO AI版と元の学習音源が同じ、というのは有名な話。
使ったのは大分昔なんで今は違ってると思いますが…NEUTRINO版はあんまり歌い方を変えられないのもあって今聞くと一本調子になるんですよね。

今聞くと声が似てるだけで全然別の音源って印象ですね…！

たかむらひびき

ひびきちゃんはめっちゃかっこいい歌い方をします。
ロックは勿論ですが、こういう曲も良く合います。

※ボーカル良く聞こえるようにちょっと大きめにしてます。

系統としてはCeVIO AIのROSEちゃんに似てますね。パワフルで歌唱力が目立ちますし、ユニゾンやハモリをさせると特徴的なビブラードが目立ちます。

中の人は若いころにカラオケ番組の”四天王”として活動していた方なので
歌唱力は折り紙付きです。

パワフルで歌唱力つよつよな歌い方なので、「う」とか「い」の発音が別の音に聞こえることがあります（これはROSEちゃんにもありました）。
「いつの日にか～」が「いつのハにか～」って聞こえてます。
（フランス語の i か？）
これはバグじゃなくて、歌うまな人にこういう歌い方する人いるわ～っていうヤツですね（パワフルすぎてアの発音に近くなるアレ、名前あるのかな？）。ここはちょっと注意かな？

かざまつりあさひ

あさひちゃんは正直難しい音源だと思いました。
色々歌わせてみたんですが、個人的になかなかしっくりこなくて…

2曲もカバーアップしちゃったよ…！

むずかしい、というのは下手とか、変な癖があるということではないです。
というかどんな歌でもちゃんとそこそこ以上に歌ってくれるし、
（上の「たばこ」はわざと音外す設定=Tune-0.24にしてるくらい）
推奨BPMが上が200もあるし、
キャラデザにあったちょっとボーイッシュな可愛い声なんで、
アイドル系とか、ユニゾンや合唱にはとても合ってます。
（中の人はガチの元アイドル…！）

ただ、あさひちゃんじゃないとダメ、みたいな曲がなかなかない。
悩んで、「声は可愛いけど歌曲自体はしっとり・しっかり」ということで
コレサワさんや@x0o0x_さん楽曲をカバーしてみました。

なんかポテンシャルは感じるんだけど、
ソロで無調声でベタで歌わせるボイス音源じゃないな～って印象です。
他のボイスが技巧や癖がある分、埋もれてしまうというか。
あさひちゃんをメインに据えるなら、しっかり色んな調声入れてあげる必要がある、割と使い手に（VoiSonaやCeVIOの）スキルを要求する音源な気がします。

ALP/HUS/TUNE、歌詞特殊記号あたりを聞かせてあげると、活きてきますね。
だから初心者だと「そこそこいいね」で止まっちゃって、
ポテンシャル活かしきれない気がするなぁ～

こむらさきももか

ももかちゃんは、キャラの見た目の印象や声質の印象で見誤りやすい音源だと思います。

楽譜がダメなので最後のハミングがおかしいですが…
ほぼベタでこれかよ…！！！！

低音や息成分の多さ、公式も「アコースティック」が得意ジャンル、とかく通り、低音しっとり系バラードにめちゃくちゃ合います。
ファルセット指定＋ビブラートとか、簡単な設定だけでこれ？っていう発音が出ます。

変なキャラ設定や、可愛い声にダマされるな！ももかは低音だ！

ちなみに中の人はささらちゃん・つづみちゃんの中の人と同じオーディション出身の後輩ですね。ひらがなばっかりの名前は偶然だと思いますが…。

ハモリとかユニゾンとか

傾向の違う4音源なので、上のカバーでも少しあるように綺麗に被らず歌ってくれます。流石、組み合わせることを想定した音源…！

セット売りはないみたいなんで残念ですが、4人で歌う曲を歌わせたいですよね～

おまけ：しゃべらせる

かのん「ええっ、デビューもライブも全くの未定って……!?」
ももか「せっかく練習もして、メンバーも仲良くなったのに……」
あさひ「アタシは諦めないからな！　歌ならどこでも歌える！」
ひびき「私、歌とギターはともかく、作曲はダメダメだから…」

あさひ・ももかのトーク適正◎
かのんも調声次第でイケる
ひびきはうーん…トークは難しいね

#NodoAme v0.4.2 リリース！
・ #VoiSona #ラフダイやまだかのん/かざまつりあさひ/たかむらひびき/こむらさきももか対応
・VoiSona 双葉湊音 2.0 対応

あさひ・ももかのトーク適正◎
かのんも調声次第でイケる
ひびきはうーん…トークは難しいねhttps://t.co/gqE0m4zx1r pic.twitter.com/4qW0fGh5a8
— いぬいぬGames (@InuInuGames) April 1, 2024

まとめ

コナミがAI歌声合成ソフトに参入！エイプリルフールじゃないよ！
ラフダイ、史上最高に”わかってる”
一緒に歌わせることを想定した被らないライブラリ
やまだかのんは東北イタコと中の人が同じだけど、別ライブラリ・別の歌い方
たかむらひびきはパワフル歌唱力音源
かざまつりあさひはソロで活かすにはスキルが必要
こむらさきももかは見た目や印象で騙されやすい
しゃべらせるならあさひ・ももかの適正◎

KONAMIがAI歌声合成に参入だって。 #ラフダイ 簡易レビュー