20090403 純正なごやん(4)
「純正なごやん$${^{*1}}$$」を改良した。「純正なごやん」とはweb上のあらゆるページを名古屋弁に翻訳するプログラムが動作するページ$${^{*2}}$$である。
perl$${^{*3}}$$と言う言語を使ってプログラムが作られている。他人が作った物である。基本的な動作は簡単で、用意した標準語から名古屋弁に翻訳する辞書の最初の単語から順次にwebページの単語を変換していく。例えば、辞書に「久しぶり→やっとかめ$${^{*4}}$$」とあると、webページを全部見回して「久しぶり」という文字列があれば「やっとかめ$${^{*5}}$$」に置き換えてしまう。この作業を辞書に掲載されている単語全部について行う。
名古屋弁の特徴は「ア行+イ」を連続して発音する$${^{*6}}$$。「ない」が「にゃあ」、「かい」が「きゃあ」などである。外来語も当然、そのように発音される。「あかんて、車のリャート点けっぱなしだがや(いけませんね、自動車のライトが点けっぱなしです)」と言った具合である。ただし例外があって、「ア行+イ+ン」の場合は、連続では絶対に発音されない。「デザイン」「ナイン」「パイン」など「デズァーン」「ニャーン」「ピャーン」とはならない。
改良前は「デザイン」が「デズァーン」になってしまっていた$${^{*7}}$$。例外処理ができるようにプログラムを変更すればいいかもしれないが他人が作った物を変えるのは非常に厄介である。そこで辞書の工夫で対処する事にした。
「ズァーン→ザイン」を辞書に加えた。辞書の最初の方に「ザイ→ズァー」を配置しておく。一旦は変換されてしまうが、「ズァーン」となった単語だけは「ザイン」に戻す。従って最初から「ズァーン」を含む単語は「ザイン」にされてしまう。日本語にこう言った文字列は殆どないので誤変換の可能性は小さいだろう。
他に「入れる」も誤変換の原因だった。読み方は「いれる」「はいれる」の二通りがある。「いれる」は変更する必要はないが、「はいれる」は「ア行+イ」なので「ひぁーれる」にしなければならない。辞書に「入れる→ひぁーれる」と入れると「入(い)れる」にも拘らず「ひぁーれる」になってしまう。
そこで「~を入れる」の場合は、必ず「いれる」と読むので、誤変換を戻すために「をひぁーれる→を入れる」を辞書に加えた。「~に入れる」はどちらの場合もあり得るが、「にひぁーれる→に入れる」を入れてどちらの場合でも「に入れる」に戻す様にした。十分な翻訳にならないが、誤変換よりはましである。
それではお楽しみ下さい*1。
*1 なごや弁純正変換『純正なごやん』
*2 20050522 純正なごやん
*3 とほほのperl入門
*4 名古屋はええよやっとかめ
*5 名古屋はええよやっとかめ2004
*6 20031124 どえらい名古屋弁
*7 20050805 純正なごやん(3)