Style-Bert-Vits2でボイスドラマを作ってみた感想

2024年2月12日 15:57

　よく来たな。リールクだ。

　表題の通り、バレンタイン用ボイスドラマを作成した。02/14 00:00に、Youtubeで公開されるはずだ。
　この記事は、聞く前に見てもいいし聞いた後に見ても良い。

　今回は、このボイスドラマを作成するに当たって生まれた感想をここにブチまけていく。役に立つ話はしない。あくまで感想だ。

背景

　作ったはいいが、そもそもおれはボイスドラマに詳しくない。
　はるか昔、ニンジャスレイヤーのボイスドラマを何処かで聞いたことがある気がするという程度だ。
　なので、今回作成したボイスドラマも、ボイスドラマのフォーマットに合致しているか今ひとつ自信がない。
　だが、それでも。作れると確信してしまった時点で作ってしまうのがテック系オタクの性である。

　今回作ったボイスドラマは、元々カクヨムとなろうで連載していた小説、「それはもう業が深い異世界少年旅行」のスピンオフとして作られている。

作り方

　キャラクターの声質は脳内である程度固まっていたから、まず12話者程度を公開のデータセットから学習し、イメージに合うようにマージしていった。
　一話者につき一時間程度は掛かるので、休日にまとめてだと他の作業ができず、精神的に堪える。そのため、毎日終業後にコツコツと学習していく必要があった。

　ピリニャスはいい感じだと思う。メアもセリフによっては超然としていて良い。クロヴもちゃんとボーイッシュの味がする。

　ナレーションやモブは、他のバースのキャラクターを想定したマージモデルから暫定的に割り当てた。この裁定はゆっくり文庫系統のミームが念頭にあり、複数のキャラクターを同じ俳優が演じているようなものである。

　出来上がった声帯に、尊さで悶えながらも作業を続ける。

　原稿については、オーガニック（AIなし）である。AI社会になっても、己自身が身につけた技術が全くの無に帰すわけではない。むしろそれが基礎となり、新たな技術を身につけるための足掛かりとなることを信じて行動している。

　モデルと音声ができたら、後は生成して動画を作成するだけである。

　そこで、幾つかの課題が見つかった。

ボイスドラマ運用の課題

　まず、端的に箇条書きにしよう。

生成音声の制御に限界がある
生成時のテンションがばらつく
擬音が厳しい

　概ね、このあたりの問題が発生した。順に見ていく。

生成音声の制御に限界がある

　これは、いずれ技術やツールの進歩によって改善しうるものだと思う。

　現状、出来上がったモデルの音声を制御するには、「（読ませる）文章」「スタイル」「アクセント」の三つを用いる必要がある。

　このうちアクセントは効果が出ないことが多かったので、必然的に文章かスタイルのほうで制御していくことになる。
　文章の方は、顕著に効果がある。文頭に句点を付与したり、末尾に感嘆符を増やしたりするだけでもだいぶ変わる。
　小手先ではあるが、今は必要な技術だ。

　スタイルは、マージ元を学習するために使った音声に大きく依存する。
　感情の大きい、特定の音声ファイルから持ってくるとかなり大きく変えられるが、やりすぎると抑揚の程度や明瞭さが滅びるので制約がないわけではない。

　これらをもってしても、「脳内の音声イメージに出力音声を寄せる」にあたり、百発百中とは行かないというのが現状のように思う。

　もちろん、九割はうまくいく。生成の結果、脳内のイメージよりも良いものができることもある。
　このあたりは、AIイラストと同様に「制御しないことによる精度」を採択するほうがうまく行きそうな気がした。

生成時のテンションがバラつく

　ボイスドラマを作る場合、連続する会話で大きくテンションを変えない技術が求められることが多い。

　何も考えず生成すると、これはぐちゃぐちゃになる。
　とはいえ、各文章ごとに生成しているので仕様上仕方ない部分がある。

　対策としては、生成する側の人間が台本を把握しておき、それに基づいたテンションで出力されるよう制御する、という方法になる。

　うまくやればLLMにパラメータ与えて自動化できそうな気もする。LLMとは今のところ連携する気分ではないので、この話はこれで終わる。対策の実行も普通の制御と同じようにできるし……。

擬音が厳しい

　まず、そもそもStyle-Bert-Vits2は擬音を生成するツールではない。
　TextからSpeechを生成するツールである。

　だが、ボイスドラマを作る場合、どうしても欲しくなってくる。
　クロヴがチョコレートを食べる音あたりに、苦慮が見えてくると思う。

　実際どうしたかというと、これは原稿の方をツールに合わせる動きをした。具体的には、原稿にないセリフを加え、何をしているか少しだけ分かりやすくした。
　また、どうしようもなかった部分はUnityのアセットから効果音を引っ張り出して対応した。アセットストアの規約上、これは問題ないはずである。

それで、結局のところ作った感想は？

　尊かった。無理。うちの子かわいい。作りながら何度も成仏して、リスポーンしていた。
　おれのXの荒れようを見ていれば分かる。良い音声ができるたびに顔をおおい、悶え、作業を中断している。
　うちの子に声を付ける作業は楽しすぎた。一次創作勢は触っておいて損はない技術だと思う。

　労力コストの話をすると、長編小説を一本仕上げるよりは遥かに小さなコストで作れたように思う。
　モデルの学習含め、長く見積もっても20時間行くか行かないか。どの声質に寄せるかイメージができていれば、15時間程度で行けるかもしれない。

　とはいえ、動画編集ソフトにある程度慣れていて、かつ原稿を通常の小説と同じスピードで仕上げる必要はある。
　ある特定の分野を席巻するAIが現れたとしても、その他の部分は相変わらずオーガニックでやる必要があるので、おれがおれの望んだままにコンテンツを作れるようになる日は、まだ遠い。

最後に

　謝辞を。
　具体的に謝辞の対象を挙げると確実に迷惑がかかるので、念のため今回は万物に感謝することにする。
　これを見ている貴方にもだ。わざわざここまで読んでくれてありがとう。
　これからも、オーガニックとAIの、両輪を使った創作を模索していきたい。もしそこでAIを使う必要がなければオーガニックでやるし、逆も然りだと思う。

　今度もまた、建設的な記事を書きたいものである。