新キャラ!DB(データベース)ちゃん登場!
合成ちゃん、というキャラで走ってきたコンテンツ。
音声合成には、合成するシンセサイザーと同じくらい重要な、「日本語データベース」が必要です。
使わない技術もありますけど…
音声合成の技術おさらい
簡単におさらいです。
テキストを声にする、という流れですが、真ん中にいろいろな処理が入ります。超ざっくりですが、流れはこんな感じになります。
テキスト
↓
日本語DBを元に解析
↓
イントネーション作成
↓
シンセ
日本語は言語学的に難しい膠着語
テキストデータは、今みなさんが読んでる文字のつながりです。漢字、ひらがな、カタカナ、数字、などが混ざってます。
つのだ☆ひろ、的な人もいます。
この日本語の特徴の一つ。
「単語と単語をスペースで区切らない」
というのがあります。
This is a pen.
英語はスペースがあるので、どこまでが一つの単語か分かりますが、日本語は名詞と動詞が隙間なく並んでます。
これを辞書と照らし合わせながら、分解していくかなり面倒な作業がまず必要。
英語の音声合成の発達が早かったのは、この面倒な作業が不要だった、というのも理由です。
日本語DBを充実させると
この解析作業。
この時参照するDBがどのくらいのデータを持ってるか、というのも評価の一つ。
優秀なら期待した単語がたくさん登録されているので、自動処理で正解が出る確率が高まる、というわけです。
なので、DBはしっかりした知識を蓄えておいて欲しい存在。
ついでに擬人化
このDBも擬人化してみました。期待を込めて、そんな性格に。
知識豊富で合成を支える存在
という事で、この子もビジュアル作ってあげようかと計画中!
どんな姿にするか、は声と展開次第。
まだまだ色々と書きたい記事もあります。金銭的なサポートをいただけたら、全額自分の活動に使います!そしたら、もっと面白い記事を書く時間が増えます!全額自分のため!