Polly と Alexa で使う SSML まとめ
Polly と Alexa の音素チューニングする時に使うSSMLをまとめました。
コピペしながら使っています。
SSML 拡張テキスト定義
<speak> テキスト </speak>
読み方・アクセント修正
<phoneme alphabet="x-amazon-pron-kana" ph="ア'ト">あと</phoneme>
話す速さ
<prosody rate="x-slow"> テキスト </prosody>
<prosody rate="110%"> テキスト </prosody>
・x-slow、slow、medium、fast、x-fast
・n%:音声の速さをパーセンテージで指定。(最小値 20%)
声の高さ
<prosody pitch="x-high"> テキスト </prosody>
<prosody pitch="+10%"> テキスト </prosody>
・x-low、low、medium、high、x-high: 高さを定義済みの値に設定
・+n%: 高さを上げます。例:+10%、+5%(Max +50%)
・-n%: 高さを下げます。例:-10%、-20%(Min -33.3%)
声の大きさ
<prosody volume="x-loud"> テキスト </prosody>
<prosody volume="+3dB"> テキスト </prosody>
・silent、x-soft、soft、medium、loud、x-loud: 音量を一定の値に設定
・+ndB: 音量 Up(+6dBでおよそ2倍。最大値は+4.08dB)
・-ndB: 音量 Down
オーディオファイルの再生
<audiosrc="soundbank://soundlibrary/transportation/amzn_sfx_car_accelerate_01" />
すぐに使える効果音は サウンドライブラリ に用意されています
感情
<amazon:emotion name="excited" intensity="low"> テキスト </amazon:emotion>
<amazon:emotion name="disappointed" intensity="low"> テキスト </amazon:emotion>
・name:"excited" , "disappointed"
・intensity:"medium" , "low" , "high"
休止
<break time="3s"/>
・時間:Max 10s 時間の単位(s or ms)を含める
・none: 休止せず。出力される休止(句点の後の休止など)を削除するために使用
・x-weak: 休止は非出力(noneと同じ)
・weak: 隣り合った単語が、読点が1つ入っている場合のように処理
・medium: 隣り合った単語が、読点が1つ入っている場合のように処理
・strong: センテンスに休止を追加
・x-strong: 段落の休止を追加(pタグと同じ)
・<p> テキスト </p>
タグの前後にextra-strongと同じ休止を追加。は、pauseに<break strength="x-strong"/>を指定した場合と同じです。
強調
<emphasis level="strong"> テキスト </emphasis>
・strong: 音量を上げ、話す速度を遅く。より大きな声、ゆっくりになります。
・moderate: 音量を上げ、話す速度を遅く。strongより控えめになります。levelを指定しなかった場合のデフォルトとして使用。
・reduced: 音量を下げ、話す速度を速くします。音声は、柔らかく、早口になります。
テキストの意図解釈
<say-as interpret-as="cardinal"> テキスト </say-as>
・characters、spell-out: 文字ごとに発音
・cardinal、number: 値を基数として解釈
・ordinal: 値を順序数として解釈
・digits: 数字ごとに別々に発音
・fraction: 値を分数として解釈します。常分数(3/20など)と帯分数(1+1/2など)に対して機能
・unit: 値を測定値として解釈します。値は、数値または分数のいずれかの後に単位が続く(単位の前にスペースを入れない)もののほか、単位だけも可能です。
・date: 値を日付として解釈します。形式はformatアトリビュートで指定します。
・time: 1'21"などの値を、分と秒で表した期間として解釈します。
・telephone: 値を7桁または10桁の電話番号として解釈します。この設定では、内線番号を処理することもできます(例:2025551212x345)。
・address: 値を住所の一部として解釈します。
・interjection: 値を間投詞として解釈します。Alexaは、このテキストをより感情豊かに話します。最適な結果を得るには、サポートされる間投詞だけを使用し、それぞれのspeechconを休止で囲んでください。例:<say-as ・・interpret-as="interjection">わおぅ。</say-as>。Speechconは、以下にリストされた言語でサポートされます。
・expletive: タグで囲まれた内容を「ピーという音」で消します。
発音良化
<lang xml:lang="fr-FR"> Paris </lang>
ja-JP
de-DE
en-AU
en-CA
en-GB
en-IN
en-US
es-ES
es-MX
es-US
fr-CA
fr-FR
hi-IN
it-IT
pt-BR