【情報リテラシー論レポート2024➉】声を作るということ、声を聞くということ

え、先生ラジオドラマって小説読み上げとはまた違うんですか???

これ今回一番の衝撃でした。「あー小説の読み上げみたいなもんかなあ」ってうんうん頷いていたら、違うの!?って慌ててメモをだーっと消して修正し直しました。そうなの、読み聞かせとは違うの。

と思ってラジオドラマ一本聞いてみたのですが(『目羅博士の不思議な犯罪』江戸川乱歩)なるほどこれドラマCDですね。環境音やBGM、足音、動物の鳴き声も入っている。
納得でした、ラジオドラマ(ドラマCD)って環境の再現もするんですね。言葉にならない音がずっと流れていて、文章では一度通り過ぎてしまえばもう説明しないその場の状況をずっと演出し続けてくれる。これは確かに、耳だけでは取りこぼしたり展開が進んだ時に忘れてしまうような周囲の要素をずっと引っ張っていってくれるので、小説の読み上げよりも没入感が高くシーンの切り替わりが非常にわかりやすい。

少し前置きが長くなりましたが情報リテラシー論第十二回授業のレポートです。


音を切って貼って”歌わせる”

突然ですがこちらの動画を見ていただきたい。

こちら、人力という名の通り、動画配信者が喋っている動画等から無数の声の音を抽出、音程の調節、連結を手動で行なって作られた動画です。ちなみに概要欄に本人が本当に歌唱したものもあります。ぜひ聴き比べてみてください。本当にクオリティが高い。
今回合成音声の話が出ていたので、人力ボーカロイド動画のお話をしてみようと思います。

コエフォントの話が出た際に、「言ってないこと作られて言わされて拡散されたらたまったもんじゃないな」と思っていたのですが、直後「あれこれどっかで似たようなのなかったか?」という既視感が私を襲いました。
「本人歌ってないのに歌わされてるのあるなぁ???」
そう、人力歌ってみた動画です。

人力動画は、前述の通り声を切り貼りして作っています。本人が歌っているわけじゃないのに歌っているように聞こえる。声を抽出されて、滑らかになるように調声されて、そうして「すげえ本人歌ってるみたい!」というコメントがつくレベルの動画も結構あります。本当にすごい技術だと思う。歌い方を似せるって相当では。歌っていないのに本人歌ったらこうなるだろうって想定で構築されている。(なお人力で話題になった曲を上記の動画曲のように本人が歌う場合もある。面白い界隈だ)

こういうことが、実は2011年にはすでに行われていました。

「自分の顔を使ったコラ写真を見ている気持ち悪さ」というコメントは大変的を得ており、私は人力というものを音のコラ作品だと思っています。私自身結構好きなんですけれども…でもかなりグレーゾーンでは?と以前から感じています。
声を武器にして仕事をしている方々は特に、この調整技術が更に高まって本物と見分けがつかなくなると大問題です。聞きたいから切り貼りして歌わせよう、このセリフ言わせたいから作ろう、でどんどん声を使われたら本当にたまったもんじゃない。

これの困るところは、真っ当に仕事をすればするほどに素材が増えるというところ。何か新しく歌ったり喋ったり、やっただけ音としての素材は増えていき、サンプルやデータが増えていき、より忠実に再現できるようになるということ。

案外AIと変わらないのかもしれないです、この「データを収集して精度を高めていく」という点。結構何事においても、例は多ければ多いほど精度や再現率やリアリティは上がっていく。それが人の手でちまちまと切り貼りしていったものが、AIで音の特徴を高速分析して出力可能になったというだけなのかもしれません。

当時はまだ人力とわかるからよかった、と思っていたのですが、そういう問題ではないということをAIが出てきてから感じるようになりました。そもそもそこにあるからといって無断で使っていいわけがない。それこそコラ画像や、生成AI画像と変わらないのではないか、と。


我々は”声を持つものたち”に何を求めているか

「これを歌ってほしいな」「この人が歌っているのを聴きたいな」と思って人力を作ったり試聴している人が大半ではあります。先ほどの動画のコメント欄を見てみると、「本当に歌ってくれて嬉しい」とか「これは伏線だったのか」とか、本人歌唱バージョンが出たことに嬉しさを書きこんでいる人が多いです(ネタで不要だって言っている人もいる)人力動画があるからといって本人が全く不要になったというわけではありません。

これが、精度が上がって本当に当人の声と見分けがつかなくなったらどうなるか。
私はそれでも本人が不要になることはないと考えています。
どれだけそっくりな声が作られるようになっても、本人の、本物の声で歌っているものを聞くことに価値があるということです。その人物が自らその曲を選び、歌唱し、その人物が動画を上げることを、ファンというものは期待しています。ただ声が聞きたいというわけではなく、本人から発信されたという事実も込みで欲しいということ、なのではないかというのが私の個人的な考えであります。

声を持つものたちは、その存在自体に価値があると考えています。声を引っこ抜かれ再現されたら用済みか、というとそうはならない。これは絵や他の生成物、作品と呼ばれるもの全般に言えることではないでしょうか。そのアイデアは、判断は、タイミングは、その個人から生成される。この曲をこの日にアップロードするだとか、この絵をこの時間にアップロードするだとか、意思やリアルタイムの感動なども含めて「現代のアート」「その人物の個性」ではないかと。我々はそれも全部含めて求めており、確かに歌声は聴きたいが、作られたものではなく本物が「これ歌うよ」と言ってくれることを待ち、祈っている。

(それはそれとしてやっぱり合成音声とかは怖いです)


いいなと思ったら応援しよう!