TTSはアイドルになれるか

2022年3月7日 15:26

https://twitter.com/hiho_karuta/status/1499064963553726464/photo/1
これの話です、書くか迷ったけど自分が命を捧げてた時期が確かに存在したので、老害の戯言だと思って流し見してもらえたら嬉しい。文章にしてきちんと整理しようと思ったけど、あんまりうまくまとまらなかったので箇条書きで。

TR;DL
アイドルの定義による、ある意味既にそうとも言えるし、そうでもないとも言える

所謂国民的キャラクター、国民的アイドル的なアイコンになることはどう考えても難しい
- TTSは本質的に声を生成する道具だから
  - 強いクリエイターとタッグを組んでも強いクリエイターとTTSという存在になってしまう
  - 声優さんが声質”だけ”で国民的に認知されるアイドル的存在になるかと言われるとそうではない
    - 声優さんを声を生成する道具と言っているわけではないです（念のため）
    - ドラえもんは声が変わってもドラえもん
- ボーカロイドと同じ
  - 初音ミクは特に一生この話の中を往ったり来たりしている存在
  - 認知度では一番成功しているモデルともいえる
    - アーリーアダプターはシンセオタクとかDTM周りの人間だったように思う
    - ニコニコ動画での楽曲ヒットからのオタクへの認知→キャラクターの確立（電子存在）→裾野の拡大
      - 黎明期の初音ミクはクリエイター層として優秀だったアイマスPを取り込んで電子の歌姫としての最初のキャラクターを確立した（”みくみくにしてあげる♪”、”恋するVOC@LOID”など)
      - “メルト”での更なる拡大（マジョリティ層への普及、歌い手文化との融合）
  - 初音ミクはキャラクターだけど、初音ミク単体としてキャラクターが成立している時と、そうでない時がある（諸説ある/人による/どこから入ったかにもよる）
    - マジカルミライでの演出やプロセカでの扱いはキャラクターとして独立している
    - 誰かが楽曲の衣装を着せてキャラクターとして成立している側面もある
      - 最近だとdeco*27さんのmannequinというアルバムがまさにその例なのかも
- 逆にSofTalkはどうなのか
  - 感想戦されている世界かは別として、少なくともあの声を聞いたら饅頭顔を思い浮かべる人は多そう
  - ある意味声が主、見た目が従の関係になっている
  - ゆっくりボイスを使っている動画は、霊夢魔理沙に限らずキャラクターを饅頭にしているパターンが多くみられる
    - 統計取ったわけではないが、Youtubeの観測範囲ではそんな感じに見える
VOICEROIDはアイドルだったのか
- 部分的にはそう、少なくとも2019-2020年くらいまでの時期（自分がしっかり観測していた時期）はそういう文脈が強かった
  - もしかしたら今も強い
  - 歌うボイスロイドは、キャラクターに歌って欲しいという要求駆動の創作活動
- この場合のアイドルはエンターテイメントの象徴という定義ではなく、偶像崇拝の対象という定義
  - 認知範囲の大きさとは違う文脈なので本質からはズレる
- これも初音ミクと同じく往ったり来たりしている存在とも言える
  - 特に実況は実況者のカラーを衣装として着せられていることが多いため
    - “実況者名”の”TTSキャラ名”という表現
    - Twitterなどで立ち絵をアイコンにしていることがあり、LiveStreamをする際のガワになることもある（声は実況者の地声だがアイコンとして）
  - TTSの宿命として感情表現に乏しい（ここでいう感情表現は突発的な驚きや笑いの表現など、凡そバラエティ番組のリアクションなどで求められるもの）
    - 声を跳ね上げたり、口調を早めたりして多少は表現できるが限界がある
    - それを補うためにexVoiceやネットミームを素材としてあてがう
    - そのような状況を複合して認知するため、TTS個としての存在確立が厳しい
      - 実際”はがねオーケストラ”では”きゆみやまさんの結月ゆかり”であった
- オフラインのイベントではあらゆるジャンルの人間が共通のIPとして乗っかるため独立したアイドル存在として語られることがある
  - 特に琴葉姉妹が顕著で、その文脈で発展したように思える
    - 有名なクリエイターが愛でている様から認知が広がる
    - 良質なコンテンツが拡散されることで認知が広がる
- 結月ゆかりはユーザー主導で裾野を広げるためにアイドル化が試みられていたように思える
  - 比較的初期の段階で合成音声の元になった声優と会話をさせることで個として確立するような動きがあった
  - 立体投影でのライブとかゆかり温泉とか、実在感を重視した動きが多いのも特徴か
音声がゴールのデカい市場
- 音声合成がツールとして持つ強みが生かせるかどうか
- ボーカロイドはアイドルとしての側面も持つが、やはりクリエイターがボーカルの労力をボーカロイドに肩代わりしてもらっている道具としての側面が今もある
  - 肩代わりを超えている側面もある（合成音声でしか出来ない無理な歌い方、作曲者が自分で全て調整できる点など）
- 歌唱と会話だと圧倒的に必要なスキルに差がある
  - ナレーションは特別な技術、故にそういう市場では商業的に使われている
  - 歌唱と同列に並べるならアニメーション作品やドラマ作品の声部分
    - 声優の技術の部分を肩代わりできるかどうか、どこまで肩代わりできるか
    - 声質のバリエーションより喋り方（に対応できる幅）のバリエーション
  - 歌唱になくて会話にある要素としてリアルタイム性がある
    - 実況系のコンテンツをTTSで作る時に手間が発生する
      - 生のリアクションを脳内で記憶して、その記憶から台本を生成して、TTSとして打ち込むという三度手間
      - 自分の声がリアルタイムに変換されていれば、地声で実況を撮っている層と同程度の編集作業で解決できる
      - 少し前に流行ったバ美肉層にも需要はありそうではある
        声の種類のバリエーションが必要、カスタマイズ性？
        声のアバター化

この記事が気に入ったらサポートをしてみませんか？