「ひらがな」ばかりの文章を音声合成すると
小川未明さんの「みけの ごうがいやさん」をAmazon Pollyで音声にしてみたので紹介します。
Amazon pollyは、高度なディープラーニング技術を使用したテキスト読み上げサービスです。テキストを入力すると、人間の声のような音声を合成してくれます。
Alexaスキルで掌編小説を紹介するようなスキルを作りたいと思ったのですが、Amazon Pollyを使って文学を音声合成する時、いくつか気をつけた方が良いことがあることがわかります。
そのあたりを「みけの ごうがいやさん」を例にして見てみたいと思います。
まずは、原文のテキストをそのまま音声合成したものをお聞きください。冒頭の30秒です。
この物語はほとんどが「ひらがな」で書かれています。そのためイントネーションや区切りがおかしな部分がいくつか見られます。
「ごうがいやさん」について、原文は「ごうがいやさん」とひと続きなのですが、「ごうが いやさん」と出力されていますね。また、「すず」「あかとら」「みけ」などのイントネーションも違和感があります。
それでも、まあまあ、話しの内容はわかりますね。
ちなみに、原文はこちら
あかとらが、みけに であって、
「その くびに つけた、ぴかぴかする ものは なんですか。」
と ききました。
「うちの ぼっちゃんが、つけて くれた すずです。」
と、みけが こたえました。
「どれ、あるいて ごらんなさい。」
みけが あるくと、カラカラ カラと すずが なりました。
「あっはは、ごうがいやさんみたいだ。」
と、あかとらが わらいました。
みけは はずかしく なりました。
「なんで こんな ものを、つけたのかなあ。」
Alexaスキルを作った時に、日本語の音声認識エンジンは、まず音声を漢字に変換していると教えてもらいました。なので、漢字やカタカナに直せる部分を修正してみたら、区切りの位置やイントネーションは変わるのではないかと思います。
こちらが、修正したものです。
「みけ」はカタカナにしました。「すず」は漢字です。文章の途中にある空白を取り、必要な部分には句読点などをつけました。これでイントネーションが変わりましたね。また、「ごうがいやさん」も「号外屋さん」としたことで、途中にへんな区切りは入らなくなりました。かなり、人間の読み方に近くなったように感じます。
漢字に修正して、おかしくなってしまったのは「坊ちゃん」でした。これは、「ぼうちゃん」と読まれてしまったので、ひらがなに戻しました。また、「あかとら」のイントネーションは、「カタカナ」にしても、漢字で「赤虎」としても同じになったため、ここの部分は別の漢字を入れるなどしてイントネーションを変える工夫が必要みたいです。
この音声合成のすごいところは、カギカッコで囲った部分が、ほかの部分に比べて抑揚をつけて読み上げられることです。ミク先輩に話してもらう時は、抑揚の部分をPが設定していますが、Amazon Pollyの場合は、テキストから予測して抑揚をつけています。
ここが、高度なディープラーニング技術を使用したテキスト読み上げサービスの特徴かと思います。
次は、もうすこし、イントネーションなどを修正したものを公開してみたいと思います。
Photo by rawpixel on Unsplash