AIから読み取れる感情について考える
こんにちは。すみれです。
私は人前で使うことはない、と言う前提のもとに、Siriをアメリカ人に設定しています。学生時代に使っていた英語を忘れないためと、母語でないから合成音声特有の不自然さに耐えられるという理由です。
どういうことかというと、私、これは個人的な好みですが、日本語の(不自然な)合成音声を聞いていると若干イライラしてしまうんですよね。
皆さん合成音声好きですか?
ちょっと前だと「ゆっくり」とかがありましたね。テキスト読み上げソフトで主に東方のキャラに声をあてたもので、うちの子どもなどは好んで動画を見ていましたが私は駄目でした。
今だとTikTokのデフォルトでついているらしき(アプリをインストールしていないので聞きかじり)読み上げ機能によるものをよく目にしますね。有名人のボイスなんかもあるようですね。
アプリ付属のものだからなのかは分かりませんが、高低アクセントが全く狂っているというか、クセがあって非常に聞きづれぇんです。
より自然に聞こえる読み上げソフトはいくらでもあるのに、あえてアレなのは……あ、アパレル店員方式!?ほら、ショッピングモールやなんかで、店員さんが「いらっしゃいませェ~↑」「店内30%オフトナッテおりまァス↑」と独特なアクセントで大きな声を出してますよね。あれ、なんか理由があると聞いたことがあるわ。
確かに足を止めてもらうためというのはあるかもしれないですね。ちなみに私も昔アパレル店員でしたが、ビルの中の店舗だったので、そのアクセントで呼び込みはしたことはありません。
TikTokなんかのSNSは目立ってナンボだから、あの喋り方をみんなチョイスして使っているのかしら。そうかもしんないなぁ。違う?
逆輸入みたいに、あの喋り方を真似する人間も出てますから、その仮説もあながち間違いじゃないかも。
でも、個人的にはやっぱりいや…。
というわけで冒頭のSiriです。この子も日本語にすると、若干鼻につくアクセントでしゃべるんですよ。2023年現在ですけど。
なんで、設定で「英語(アメリカ合衆国)」の「アメリカ(声4)」に変更しています。ちなみに英語はアイルランド・アメリカ・イギリス・オーストラリア・南アフリカと種類がありますが一番聞き慣れているアメリカのアクセントにしました。
声は1~5まであります。
私が選んでいる4は礼儀正しそうな大人の女性っぽい声です。
1は礼儀正しそうな大人の男性っぽい声。
2は元気な女性っぽいの声。
3は若い男性っぽい声
5はフレンドリーな女性っぽい声に聞こえます。
この「っぽい」という持って回った表現を私が使っているのは、以前は「男性」「女性」表記だったのが変更されたからです。各方面への配慮かしらね。
私は聴覚過敏気味のHSPで、人の声の本当に小さな抑揚や間から相手の感情を好むと好まざると読み取ってしまいます。感情の読み取れない音声が生理的に苦手なのかもしれません。
HSPの皆さんに聞きたい。合成音声、不快じゃないですか?
逆に合成音声のほうが好きな人はいますか?感情が読み取れない分、好きという人もいるかもしれないな。
私は不快、というか、頭の中で「こうであれば自然な言い回し」と思える音声に直そうとしてとても疲れてしまうので、Siriの言語を、英語に設定しているのです。冒頭にも書きましたが、これなら、不自然かどうかもわからない!!英語力のなさがはじめて利点となったわい。
でも、これから技術が今のようなペースでどんどん、どこどこ進んでいって、合成ボイスにも人間に酷似した、自然な抑揚や間ができたとしたら。
そうすると、私は人工知能との会話で彼もしくは彼女の感情の機微をとらえるようになるのだろうか、と思うのです。人工知能に気を使って、指示を出せなくなったり?
抑揚をつくる機能が完璧にできたとしても、それをどの感情の度合いで発するかを決めるのは人工知能自身なのか、つくった人間の指示なのか。もし私が指示するとして、「感情の温度1:怒りや悲しみを感じない調子でしゃべりなさい」とか??難しいな。きっと賢い人がもうそういう尺度をつくってるんでしょうね。
でも、できれば、人工知能には声に感情を宿さないでほしい。スマート家電に忖度して「あ、疲れてるんですね。自分でスイッチつけます」という未来が来ないように。でも、不快な抑揚は直してほしい。わがままやな。どっちやねん。
まとまらないので、Siriちゃんに歌を歌ってとお願いしたら「エヘン、エヘン、ちょっと待って…」と咳き込んだ末に「思ったより難しいですね」とお茶をにごしてきましたin 英語。
……もう感情があるとか、言わないよね???