AI音声合成技術は、人間の声優を超えるか？

2022年5月1日 13:40

皆さま、こんにちは。
オトシネマ広報イメージキャラクターの音々です✨

オトシネマは「耳で聴いて心で感じる」をコンセプトにオーディオドラマやボイスレター等、様々な音声作品をSpotify等の音声プラットフォームで配信しております📻

音声作品にとって、なんと言っても欠かせないのは「声」🗣

オトシネマでは、プロの声優・ナレーターさんの声に加えて、AIの音声合成技術を活用したオーディオ作品の配信も行なっております。

音声合成技術とは？

音声合成とは、コンピュータを使い人間の声を真似た音声を自動的に生成するもので、その技術を使えば、任意の文章を音声に変換して、さまざまなテキストを発話させることができます。

実はこの音声合成技術、以前から使われきたものなのですが、これまでそのクオリティは、実用的には到底使いものにならないレベルのものでした。

しかし、2022年の春現在、その精度はどの程度まで上がってきているのでしょうか？

まずはオトシネマにて配信された、以下のオーディオドラマをぜひお聴きください。

いかかでしたでしょうか？

聴いてくださったリスナー様からは、「これは、スゴイ…！」という驚きのご感想や、「なんかちょっと怖い…」という、ロボット工学分野における「不気味の谷現象」とも言えるようなご反応を頂く事もありました。

この音声作品には、2022年2月に発売された株式会社AHSから発売された「VOICEPEAK」という音声合成のソフトを活用させて頂いております。

こちらのソフトでは、なんと感情パラメータによる喜怒哀楽の表現や、イントネーションの調整、スピードの調整等が可能で、情報を伝えるだけのナレーションであれば、ほぼ実用に近いレベルの所まで来ている状況と言えます。

では、今後声優さん・ナレーターさんの仕事は全てAI音声合成技術に置き換わってしまうのでしょうか？

「…それはありえない。」

肉声とAI音声、どちらも使って作品をつくり、配信を行なっている私たちの現場から今言える事は、まさにコレです。

毎週、実際の声優さんでお芝居を収録をしていると、AIでは越えられないとてつもなく高い壁がはっきりと存在している事に気づく事が出来ます。

ドラゴンボールのフリーザ役等で知られる声優・中尾隆聖さんは、ご自身の半生を綴った著書「声優という生き方」の中で【演技は「呼吸で」決まる】と語られています。

つまり、台本に書かれている台詞を読むだけでは演技にならないという事です。

人間は、感情が昂っている時の呼吸、なにかを企んでいる時の呼吸、怒りに我を忘れている時の呼吸、複雑な思いを口にすることができない時の呼吸、自分の経験でもそれらが同じでないのはわかるはずです。

陥りがちなのは、「言葉ありき」で「セリフありき」でやってしまうこと。言葉やセリフを細かくみていくと、息を吸って、吐いて、声帯を震わせて、音になり、それが繋がってはじめて言葉になる。でもそれをはしょって、言葉のことばかり考えていると、呼吸がおろそかになってしまいます。

呼吸は、シチュエーション、人物像、感情、あらゆる要素で異なっていて、ひと通りじゃありません。とても重要な部分ですし、そのわずかな機微で演技が変わってしまうのだから面白い部分でもあります。

このように仰っています。

AI音声合成技術においては、コンピュータが、言語処理、※韻律（いんりつ）生成、波形処理をして、音声が合成されます。（※韻律とは、声の高さ、イントネーション、リズム、ポーズなどの喋り方の特徴の事です。）

しかし、優れた声優さんは、作品の世界観を理解し、キャラクターの人物像を理解し、そして演出をきっちりと理解した上で「息」をつくります。

これは現時点のAI音声合成技術では、到底出来ない事なのです。

私たちも収録時に、このAI音声合成技術では到達できない声のお芝居を聴く度に「ああ、やっぱり人間の芝居は、本当に豊かで良いものだなあ。」と心を動かされます。

さて、このAI音声合成技術。
今後は、どこまで進化していくのでしょうか？

今回の記事でご紹介した「息」の壁をAIが越える日は、果たしてやって来るのでしょうか？

私たちはAI音声合成と肉声の作品を同時に制作していく中で、この領域においての示唆を深め、「人間にしか出来ない芝居、人間でしか伝えられないものとは何なのか？」についても考え続けていきたいと思っています。

（おわり）

「耳で聴いて、心で感じる」オトシネマ
Spotify他で無料配信中📻どうぞよろしくお願い致します🙏

FB用(4Kサイズ)