機械翻訳が、急速に発展したように、「AI声優」もひっそりと浸透する。
自宅の近くに声優学校と声優博物館があるが、ひっそりと浸透する「AI声優」は、人間の仕事を奪うか?もしれない。
声優学校の授業料も無駄になる。
MITテクノロジーレビュー(MIT Technology Review)は2021年10月12日に、深層学習のブレークスルーにより、人間の話し方の微妙なニュアンスまで再現する「AI声優」が活躍の場を広げていると報告した。
https://time-az.com/main/detail/75394
新しいデジタル広告やブランドに合わせたオリジナル音声の確立といった期待の一方、人間の声優には不安の声もある。
ウェルセド・ラボ(WellSaid Labs)のブログ記事には、90年代の米国のインフォマーシャルのような熱気に満ち溢れている。顧客企業が「8人の新しいデジタル声優」に期待できることを説明している。
例えば、トービンは「エネルギッシュで洞察力に富んでいる」、ペイジは「落ち着きがあり、表現力豊か」、エヴァは 「洗練され、自信に満ちたプロフェッショナル」といった具合だという。
それぞれのデジタル声優は、人間の声優に基づいて作られている。
AIを利用して人間の声優の特徴を同意を得た上で保っている。
顧客企業はデジタル声優のライセンスを取得すれば、何でも好きなことをデジタル声優に語らせることができる。
音声エンジンに文章を入力するだけで、文章を自然に読み上げる鮮明な音声クリップができあがる。
以前、北朝鮮でテレビ・アナウンサーが内容を間違えて断罪された。
「AI声優」は、内容を入力した人が断罪され、テレビ・アナウンサーは断罪されないどころか、存在しない。
シアトルを拠点とするウェルセド・ラボは、非営利の研究機関であるアレン人工知能研究所(AI2:Allen Institute of Artificial Intelligence)からスピンアウトしたスタートアップ企業。
顧客企業にAIを利用した合成音声を提供しており、企業のeラーニング映像の音声に特化した企業である。ほかにも、デジタルアシスタントやコールセンターのオペレーター、さらにはビデオゲームのキャラクターの音声を作っているスタートアップ企業もある。
おかげで、求める答えと違う会話になることも増えるだろう。
このようなディープフェイク音声は詐欺の電話やインターネット上の不正行為に使われ、少し前まで評判が悪かった。
だが、品質が向上したことで、多くの企業が関心を寄せるようになった。
近年の深層学習のブレークスルーにより、人間の話し方の微妙なニュアンスの多くの再現ができるようになったことも大きい。深層学習を使った合成音声は適切なところで間を取り、息継ぎをし、話し方や感情を変えることもできる。
確かに、「AI声優」は息をしていないので、息継ぎなしも可能である。
話す時間が長すぎると見破られることもあるが、短い音声クリップなら人間と区別がつかないものもある。
「AI音声」は安価かつ大規模化が可能で、扱いやすいのも特徴である。
人間の声優での録音とは異なり、合成音声は台本をリアルタイムで更新できるので、広告のパーソナライズに新しい可能性をもたらす。
しかし、超現実的なフェイク音声の増加による影響は、さまざまな方面におよぶ。
特に人間の声優にとっては、フェイク音声が自らの生計にどのような影響を与えるのか、気になる。
フェイク音声の作り方
合成音声は、新しいものではない。しかし、初代のシリ(Siri)やアレクサ(Alexa)といった旧来の合成音声は、単に音をくっつけただけの、ぎこちないロボット音声を実現しただけだった。
少しでも自然に聞こえるようにするためには、多くの時間と労力を要する手作業が必要だった。
深層学習がそれを変えた。
音声開発者は生成した音声に、正確なテンポや発音、またはイントネーションを指示する必要がなくなった。代わりに、数時間分の音声をアルゴリズムに入力して、アルゴリズムにそれらのパターンを学習させればいい。
この基本的な考え方に基づいて、研究者たちは長年にわたり、ますます高度な音声エンジンを開発してきた。
例えば、ウェルセド・ラボが構築した音声エンジンは、大きく2つの深層学習モデルを使用している。1つ目のモデルは、文章の一節からアクセント、速度、音色など、話し手の声の大まかな特徴を予測するもの。2つ目は、息継ぎや環境での声の響きであった。