Amazon Pollyの実力は?
Amazon Pollyで詩の朗読が出来るのか?
近年の機械学習やAIの進歩により、一般使用できるまでに進化を遂げたTTS(Text to Speech)その代表であるAmazon Pollyの実力を、詩の朗読をケーススタディにして検証します。
今回の題材は、雨ニモマケズ 宮沢賢治 です
雨ニモマケズ 宮沢賢治
雨ニモマケズ
風ニモマケズ
雪ニモ夏ノ暑サニモマケヌ
丈夫ナカラダヲモチ
慾ハナク
決シテ瞋ラズ
イツモシヅカニワラッテヰル
一日ニ玄米四合ト
味噌ト少シノ野菜ヲタベ
アラユルコトヲ
ジブンヲカンジョウニ入レズニ
ヨクミキキシワカリ
ソシテワスレズ
野原ノ松ノ林ノ※(「「蔭」の「陰のつくり」に代えて「人がしら/髟のへん」、第4水準2-86-78)ノ
小サナ萓ブキノ小屋ニヰテ
東ニ病気ノコドモアレバ
行ッテ看病シテヤリ
西ニツカレタ母アレバ
行ッテソノ稲ノ朿ヲ[#「朿ヲ」はママ]負ヒ
南ニ死ニサウナ人アレバ
行ッテコハガラナクテモイヽトイヒ
北ニケンクヮヤソショウガアレバ
ツマラナイカラヤメロトイヒ
ヒドリノトキハナミダヲナガシ
サムサノナツハオロオロアルキ
ミンナニデクノボートヨバレ
ホメラレモセズ
クニモサレズ
サウイフモノニ
ワタシハナリタイ
原文入力結果
壊滅的な出力結果となりました。
音素チューニング
まずはカタカナを漢字に直し、その後もSSMLを使い音素チューニングを施して、それっぽく仕上げていきます。
<speak>
<prosody rate="90%">
雨にも負けず<break time="1000ms"/>
宮沢賢治<break time="1500ms"/>
雨にも負けず<break time="500ms"/>
風にも負けず<break time="500ms"/>
雪にも<break time="200ms"/>
夏の暑さにも負けない<break time="100ms"/>
丈夫な体を持ち<break time="500ms"/>
欲はなく<break time="200ms"/>
決して怒らず <break time="500ms"/>
いつも静かに笑っている<break time="1000ms"/>
1日に玄米4合と<break time="200ms"/>
味噌と少しの野菜を食べ <break time="500ms"/>
あらゆることを自分を勘定に入れず <break time="500ms"/>
よく見聞きし<break time="200ms"/>
分かり <break time="500ms"/>
そして忘れない <break time="1000ms"/>
野原の林の下のかげの<break time="200ms"/>
小さなかやぶきの小屋にいて <break time="500ms"/>
東に病気の子供がいれば<break time="200ms"/>
いって看病してやり <break time="500ms"/>
西に、疲れた母がいれば <break time="500ms"/>
いって、その稲の束を背負い <break time="500ms"/>
南に死にそうな人がいれば <break time="500ms"/>
行って怖がらなくてもよい <break time="200ms"/>
と言い <break time="500ms"/>
北に喧嘩や訴訟があれば <break time="500ms"/>
つまらないからやめろ <break time="200ms"/>
と言い <break time="500ms"/>
日照りのときは、涙を、流し <break time="500ms"/>
寒さの夏は、おろおろ歩き <break time="500ms"/>
皆に「でくのぼう」と呼ばれ <break time="500ms"/>
ほめられもせず <break time="200ms"/>
苦にもされず <break time="500ms"/>
そういうものに <break time="1000ms"/>
私はなりたい
</prosody>
</speak>
(SSMLでどんなチューニングが出来るのかは、他のレポートで解説予定)
検証結果
Summary
原文がカタカナという事もあり、そのまま喰わせても「読みの間違い」「イントネーション」「間の取り方」が壊滅的な仕上がりとなり、原文を漢字に書き直す事から始める必要があります。
一方で漢字に修正する事で大幅な改善が見られた事から、Amazon Pollyが言葉の意味や文脈を考慮した音声合成処理をしている事を検証出来たと思います。