Amazon Polly: ニュースキャスターと会話風のナレーションを自動生成する方法
こんにちは、Choimirai School のサンミンです。
0 はじめに
Amazon Transcribe へのアクセスが多かったので Amazon が提供するテキスト読み上げ(Neural Text-to-Speech、略して NTTS)機能、Amazon Polly についても簡単に紹介させていただきます。
ニュースキャスターや会話風に読み上げることも出来る Amazon Polly は初年度に限って月に100万文字までは無料でご利用できます。
Amazon Polly の読み上げ性能を他の TTS サービスと比べたノートはこちらを参考にしてください。
今回のノートでは、SSML(音声合成マークアップ言語)を操作してテキストをニュースキャスターや会話風に読み上げる方法を簡単にまとめます。
1 Prerequisite
Amazon Web Service(AWS)と AWS の S3を既に利用されている方が対象です。3000文字以下であれば S3 がなくても Amazon Polly を利用することが出来ます。しかし、多くの場合テキストの長さが3000文字を超えると思いますので、読み上げた音源を S3 へ保存する必要があります。
2 テキスト読み上げ
Amazon Polly のテキスト読み上げはとても簡単です。
①テキストを入力
②声を選択
③NTTSのジョブをサブミット(テキストが3000文字以下であれば、そのまま読み上げた音源をダウンロードすることも可)
3 ジョブ作成
ジョブを生成するまでの手順は、
①リージョンを選択
②SSMLタブに必要なテキストを入力
③音声Engineを選ぶ
④Voiceを選択
⑤Synthesize to S3でジョブをサブミット
■リージョンを選択
Amazon Polly のコンソールにログインしますと次のような画面が表示されます。
このノートを書いている時点(2020年1月22日)で、Neural Text-to-Speech (NTTS) は us-east リージョンのみが対象となっています。リージョン(上記図の①)をクリックし、"us-east-1" か "us-east-2" を選択してください。
■SSMLタブに必要なテキストを入力
会話風の場合はSSMLに、
<amazon:domain name="conversational">
ニュースキャスター風に読み上げてもらう場合は、
<amazon:domain name="news">
と明記し、その下に読み上げてもらうテキストを入力します。
<speak>
<amazon:domain name="conversational">
I can also speak in a Conversational style, which simulates the tone of a friendly conversation.
</amazon:domain>
</speak>
■音声エンジンを選択
Engine に Standard と Neural がありますので Neural にチェックを入れます。
■声を選ぶ
2020年1月22日の時点で、SSML の "amazon:domain" タグが使えるのは、Joanna と Matthew のみです。会話やニュースキャスター風に読み上げてもらい場合はこの二人から選ぶようにしてください。
■ジョブを送信
テキストの長さが3000文字以下であれば、①Download MP3のボタンで読み上げた音源をダウンロードすることが出来ます。
但し、3000文字を超えますとジョブをサブミットして S3 からダウンロードする必要があります。その際には、②Synthesize to S3 でジョブを送信します。
Synthesize to S3 ボタンを押下しますと次のようなポップアップが表示されます。前もって用意した S3 の bucket 名を入力し、Synthesize ボタンでジョブを作成します。
※注意:S3 のリージョンは Amazon Polly のリージョンと一緒である必要があります。S3 の bucket を新しく作る際には気をつけてください。
問題がなければ、次のような確認のプロンプトが表示されます。
SSML のコードに問題があればエラーメッセージが表示されますので、SSML のタブに入力されたテキストを見直してもう一度送信するようにしてください。
4 進捗の確認
画面の左にある、S3 synthesis tasks メニューを選択しますとサブミットされたジョブの作成状況を確認出来ます。
Status が Completed になっているファイルは S3 URL からアクセス出来ます。
5 テキスト読み上げの精度
ほぼ人間と区別がつかないレベルです。
ニュースキャスター風に読み上げた記事のサンプルです。
会話風に読み上げたナレーションのサンプルです。
読み上げ自体の性能も素晴らしいですが、早くて料金もそれほど高くないのも大きなメリットです。
6 まとめ
Amazon Polly は使いやすいだけでなく精度も抜群です。料金も3ページの英文記事を読み上げてもらうのに10円で済む。本当に素晴らしいサービスです。多くの方が活用できればと願っています。
一方で、言語に関わる仕事をされている方はこの動きに注目して欲しいです。人工知能の発達で翻訳や通訳を含め多くの仕事が自動化されると思います。猛スピードで進む変化の中でどう対応していくか、考えるべきです。
7 関連プログラム
多読 PROでは去年の8月から Amazon Polly で読み上げた記事を Soundcloud でシェアしています。
一回読んだ記事を読み上げてもらうことで発音の確認はもちろん話の内容もより記憶に定着しやすくなります。
2020年1月からは Newsela のコンテンツにフィクションも追加されましたのでフィクションは会話風で、そして記事はニュースキャスター風に読み上げてもらっています。
この記事が気に入ったらサポートをしてみませんか?