新キャラ！DB（データベース）ちゃん登場！

2021年2月16日 10:53

合成ちゃん、というキャラで走ってきたコンテンツ。

音声合成には、合成するシンセサイザーと同じくらい重要な、「日本語データベース」が必要です。

使わない技術もありますけど…

音声合成の技術おさらい

簡単におさらいです。

テキストを声にする、という流れですが、真ん中にいろいろな処理が入ります。超ざっくりですが、流れはこんな感じになります。

テキスト
↓
日本語DBを元に解析
↓
イントネーション作成
↓
シンセ

テキストデータは、今みなさんが読んでる文字のつながりです。漢字、ひらがな、カタカナ、数字、などが混ざってます。

つのだ☆ひろ、的な人もいます。

この日本語の特徴の一つ。

「単語と単語をスペースで区切らない」

というのがあります。

This is a pen.

英語はスペースがあるので、どこまでが一つの単語か分かりますが、日本語は名詞と動詞が隙間なく並んでます。

これを辞書と照らし合わせながら、分解していくかなり面倒な作業がまず必要。

英語の音声合成の発達が早かったのは、この面倒な作業が不要だった、というのも理由です。

この解析作業。

この時参照するDBがどのくらいのデータを持ってるか、というのも評価の一つ。

優秀なら期待した単語がたくさん登録されているので、自動処理で正解が出る確率が高まる、というわけです。

なので、DBはしっかりした知識を蓄えておいて欲しい存在。

このDBも擬人化してみました。期待を込めて、そんな性格に。

◾️DBちゃん（仮）のご紹介

音声合成で大事な日本語データベース。頭いいんですよ！紹介します！ pic.twitter.com/14Q3nc6fcd
— 音声合成による音声合成のための音声合成のお話 (@gouseichan) January 13, 2021

という事で、この子もビジュアル作ってあげようかと計画中！

どんな姿にするか、は声と展開次第。

まだまだ色々と書きたい記事もあります。金銭的なサポートをいただけたら、全額自分の活動に使います！そしたら、もっと面白い記事を書く時間が増えます！全額自分のため！