自分の声が様々な外国語を語るーー「最新音声技術」の紹介

2023.10/13 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、音声技術の発展によって、自分の声が多言語に翻訳されるサービス等について紹介します。

◾最新の音声技術の発展

前回は、オーディオブックの読み上げ機能に関して、感情を込めた合成音声による読み上げが可能になったことをお伝えしました。

合成音声については常にアップデートが繰り返されており、昨今はリアルタイムで音声翻訳を行うことも可能です。

例えば、リアルタイムボイスチェンジャーソフトで、2023年9月に発表された「Voidol3」は、マイクに向かって話し始めると、ほとんどタイムラグなく、自分の声が登録されたキャラクターの声(いわゆる美少女やイケボ)として発音されます。

一方、音声ソフトウェアを開発する企業「ElevenLabs」は、これまでも有名人の声で様々なテキスト読み上げを可能とするサービスを発表し、悪用の懸念から批判を浴びました。同社は対策として、本人以外の声では読み上げを不可能にすることになりました。

そのEleven Labsは2023年8月、新たに「Eleven Multilingual v2」というサービスを公開しています。これはテキストを入力すると、その言語を自動で検知し、自然な言語で読み上げるというものです。対応言語は実に30ヵ国語で、日本語も含まれていますが、驚くべきは、登録されたキャラクター(男性や女性)を選択すると、日本語であれ英語であれ、そのキャラクターの声の特徴を活かしたまま多言語で発音することが可能です。

すでにEleven Labsでは、一部のオーディオブックの読み上げや、ゲームのNPC(ノンプレイヤーキャラクター)などで使えるとして、数社とパートナーシップを立ち上げたとしており、昨今は資金調達も行っています。

◾自分の声が多言語で語る

Eleven Labsにはもうひとつ、「ボイスクローニング」というサービスもあります。これは自分の声を登録することで、自分にそっくりの声で文章を読み上げるというもの(音声データは最低でも30分、品質を求めるなら3時間)。したがって、ボイスクローニング機能と Multilingual v2機能を併用すれば、自分の声で30(サービスによっては29カ国)の言語で発音が可能になるのです。また、細かくは差がありますが、こうした機能を持つツールはすでにいくつか存在しています。

こうした機能には様々な論点がありますが、まず個人ユーザーとしては、SNS等での発信を海外に向けて行うことができるでしょう。これは、インフルエンサーが海外で活躍するきっかけを生むと考えられます。

また、このサービスは語学学習でも活用できるでしょう。例えば、自分の発した日本語を、英語等の多言語で翻訳・発音させることで、イントネーション等の参考にする、といった方法が挙げられます。人によって向き不向きはありますが、昨今のChat-GPTを用いて外国語の会話の練習を行うなど、語学学習についてはよりよい環境が到来しつつあると言えるでしょう。

他方、以前もお伝えした、2024年までに搭載するとされる、YouTubeのAIによる音声の自動翻訳・吹き替え機能等を前提とすれば、もう外国語学習は専門性の高い領域を除いて必要なくなる、といった声も聞かれることがあります。

一方、すでにネット上では、AIを用いて特定の有名人の声を多言語で発音、動画であれば口元を変化させることで、実際にその有名人が外国語を話していると思われるような動画がアップされています。有名人の声をユーザーが勝手に翻訳・発音させると、他のユーザーの混乱を招いたり、これもまた悪用の可能性も考えられます。

音声技術の発展は著しいものがありますが、新たな技術には可能性と同時に課題を孕むものです。今後も技術の使われ方に注意する必要があるでしょう。

この記事が気に入ったらサポートをしてみませんか?