Supertone Shift(AIボイスチェンジャー)の実用性調査
石射です.趣味で少女をやっています.
低遅延のAIボイスチェンジャーであるSupertone Shiftが新たに登場したと聞き,現在のボイスチェンジャー環境から乗り換えるべきか見極めるために評価を行いました.
要約
shiftの実用性に関する評価は次のものです:
一定の遅延があるため,ループバックを聞きながら使用することは難しい
変換の度合いを調整できるため,自然な声で話すことができる
結論:私は乗り換えません.
※本記事ではAIボイスチェンジャー同士での比較は行っておりません.
評価の概要
基準
女性っぽい声を出すことを目的としているため,評価基準は主に次の二つ:
遅延
変換品質
比較対象
私が普段使いしているボイスチェンジャー環境とShiftとを比較しました.比較する環境は次のとおりです:
現在環境:pitchproof + イコライザー (+ その他,リミッター等)
Shift環境:shift
遅延の評価
変換遅延は次の動画のとおりです.変換前の声と変換後の声とを両方を鳴らして録画しました.
Shiftの発話遅延は,上の動画の最初の音においておよそ300msでした.
($${\frac{1}{30}\text{s} \times 9 = 0.3 \text{s} = 300\text{ms} }$$)
200msの遅延をかけて自分の声を聴くと発話が阻害されることが報告されています[1].shiftの遅延もそれに近く,発話がしづらいように感じました.Shiftを用いる場合,ループバックは聞かない方がいいでしょう.
ループバックを聞けないために,次の問題が生じます:
話し方をリアルタイムに調整できない
女性になったっぽい感覚がない
後者の問題のために,女性っぽい話し方をするにあたって精神的苦行が強いられます.
また,これほどの遅延があるとリアルタイムな歌唱も難しいです.
一方で,会話自体を難しくするような遅延ではありません.変換を信頼してループバックを聞かずに話すのであれば,実用上問題はないと考えます.
変換品質の評価
変換品質は,発話と歌唱とでは音域や求められる声質が異なるため,分けて評価しました.
この評価において,発声とパラメータとは,私が主観的に最も自然と思うものに調整しました.地声でそのまま変換をかけた際の自然さは条件に依らずShiftに軍配が上がります.
発話
Shift使用時は遅延の関係から変換後の音声を聞かずに発話をしましたが,それでも自然に感じました.
しかし,ループバックが聞けないため,女性っぽい話し方をする際に生声を聞きながら発声等を調整する必要があります.これがなかなかしんどいです.しかし,きっと慣れるかもしれません.私は慣れませんでしたが.
やや不自然に感じられる個所はありますが,これは最初のキャリブレーション工夫次第でどうにかできるかもしれません.この点は評価を控えます.
以上まとめると,普通に話す分には十分に実用的であり,使用の検討が選択肢として入ると感じました.
歌唱
Shiftの良いところは,変換の度合いを調整できるところです.このため,高音の歌唱でも変換の度合いを緩めるとかなり自然になります.
Shiftは高音が苦手で,不自然な声になってしまいますが,BlendやPitchの値を調整すれば自然な歌声にできます.この点がかなり有用だと感じました.
また,現在の環境で歌唱をする場合,(私の技術不足によるところが大きいですが)自然な太い声での歌唱というのが非常に難しいです.このため,細い声での歌唱しかできず,幼い感じの歌声でしか歌えないという問題があります.
Shiftはこれに対し明確な優位点を持っています.変換の度合いを調整することで,自然な太い声での歌唱ができます.また,裏声と地声が使えるため,表現の幅が広いです.
さらに,キャラを変えれば声質が調整できるので,様々な歌い方ができます.
全体的な評価
Shiftは,リアルタイムな歌唱以外には利用可能であり,変換の度合いが調整できることから工夫次第で自然な声による発話が可能です.また,キャラを選択することにより多彩な声が扱えることは現在環境(pitchproof)と比較した明確な優位点です.
一方で,遅延のために,プロテウス効果をかけづらく,リアルタイムな発声の調整ができないのはかなり痛いところです.
結論
満足のいく声を既に出せている人には不要と判断します.
一方で,次の人たちには有用と考えますので,実用を検討してみるとよいと考えます:
現在の声に満足していない
隣の部屋にボイチェン用の変な声を聴かせたくない
いろいろな声を切り替えたい
私は乗り換えません.
参考文献
[1]STUART, Andrew, et al. Effect of delayed auditory feedback on normal speakers at two speech rates. The Journal of the Acoustical Society of America, 2002, 111.5: 2237-2241.