やりたいけどやらない事(ボカロ)
音とノイズの狭間は勿論、
言葉と音とノイズの狭間も存在します。
人の声と機械の声の狭間も。
音に関わる中で、音声フォルマント(※注)の研究をしばらくやっていました。
例えば、「あ」という言葉と、「う」という言葉を録音して、解析して特定の周波数の分布を眺めて、
なんで「あ」とか「う」とか聞こえるか、どうしたら聞こえるようになるのか調べるのです。
実際にはもう少し複雑な事をやってゆくのですが、
(『あか』と発音する時と『あお』と発音する時の『あ』の周波数分布は違うとか、『あ』の長さを変えてどこまでなら短くしても『あ』として認識するかとか)
少し手を加えると、あっという間にまた狭間に出会います。
人の声と機械の声の間ってものすごく曖昧です。
解析画面だと一見判別できないくらい。
でも聴いたらわかるので、人間の感覚ってすごいですよね。
同僚達に頼んで聞いてもらって聴感のグラフも作りましたが、見事に不気味の谷(※注)が出来ます。
この谷を越えるべく、試験用の比較再現音声や機械での周波数分布を作り続け、しばらくしたらかなり良い出来の機械音声になりました。
そう。つまりボカロですボカロ。
なんだこれたーのしー!歌わせないが!
適当な周波数の塊が、少し触ると勝手に意味のある言葉に聞こえてくる。
更に声の背景に特定のフィルタのノイズを入れると、
なんだかそれっぽくなったりします。
谷は越えられませんでしたが、楽しい研究でした。
当時は1人で(たまに同僚をからかって)成果物で遊んでいるだけでしが
最近在宅仕事中にボカロ曲を聴いたりするようになり、今更歌わせたくなっています。
今のソフトって、すごく色々な作り込みが出来るんですよね。
時間が溶けてゆく事間違いないのでやりませんが、やりたいなぁ。
いつか超えられなかった谷を超えてみたい、機械音声と肉声の狭間をはっきり見てみたいなと思います。
■
※音声フォルマント
音声の周波数分布において現れる、特徴的に強度のある帯域。
大体、フォルマントの1、2の帯域を見て母音を判別します。
濃い部分が音量が強い周波数帯、薄い部分が弱い周波数帯です。
左から「い」「う」「あ」と発言した際の分布になります。
「う」と「あ」って、フォルマントは近いんです。
ただ、「あ」の方がほぼ全ての帯域に音があるので判別出来るらしいのですが。
※不気味の谷
人間から人工物への感情的な好感度を表したグラフ中に突然現れる、谷のように好感度が下がる部分。
ロボットや人工音声が人に近づくと、近づけば近づくほど人は不快感を覚えるらしいです。
デフォルメされたロボットアニメは描写が細かくなくても人に見えるし可愛いけど、
精巧に人に近づけて作ったCGがまばたきをしなかったり、爪の根元が白くなかったら気持ち悪い。
自動販売機の機械音声に不快感は覚えないけれど、流暢な筈のニュース音声には何故か鳥肌が立つ的な。
これは人工物に超えられない谷として、しばしばSFやロボット工学に例え話が出てきます。