貴社の記者が汽車で帰社しました、という昔ながらの問題
日本語は「読み」が同じで異なる字の単語が多い、という問題が。
そうなると、単に単語が書かれてるだけのDBでは、どう読むか判断できません。
同音異義語はちゃんと考えてやってます!
どう処理されるのか?
日本語って同音異義語が多い
今回の「きしゃ」も短い文章でこれだけの種類が使える。
他にも「てんき」だと、天気、転機、転記、など。
「かとう」だと、加藤、加糖、果糖など。ちょっと思い出すだけでも沢山あります。
これを聴き分けて使う人間ってすごい、というのは分かります。
日本語形態素解析、というワザ
音声合成を作る処理を改めて解説します。
囲ってある部分で、テキストが音になります。ポイントは、日本語形態素解析、という機能。
まずは、その単語の品詞を見て、さらにそれが前後でどのような言葉と接続されているか、を見て、適切なイントネーションを決めます。
こちらで、「焼きそば」という単語が、使われる位置で読み方が変わる例を解説しました。例では、3種類に分かれました。
これを自然に使い分けてる人間ってすごい(本日2回目)。
さて、記者はどうなるのでしょう。
まあ、この音声合成で使ってる辞書は割と頑張ってる方なので、比較的まともですね。
つまり、標準的な日本語の単語をどれだけ網羅しているか、も音声合成(システム)の性能になります。
※DB登録→参照、だけで無く、その他の技術で補う事もされています。
日本語の変遷
今回のnote、日本語そのもの、についても考える内容があります。
今回使った言葉遊びは、かなり昔からある定番を借りました。オリジナルは「貴社の記者が汽車で帰社できしや」です。
さいご、「できました」ってことですが、昔は「ゃ」が表記上「や」と大きく書く慣例もあった。なので、上の文は平仮名にすると「きしやのきしやがきしやできしやできしや」となる訳です。
日本語も変化を繰り返してます。ここで見えてくる「変遷」の一つは、表記ルールの変化。
もう一つは「汽車」。無くなった訳じゃないけど、蒸気機関車は今は観光地や博物館で、決して記者が会社に戻るために使うものではない。
変遷の二つ目は、存在がそもそも消えていく単語。
そんなものも辞書に入っているかいないか、が一つの性能評価の指針になります。
案外真面目に終わった!