苗字で遊ぼう① もっとも頻繁に苗字に登場する漢字は何だ!?
「田」です。
経験則から決めつけてしまいましたが、本当に「田」が最も頻繁に苗字に含まれる漢字なのかという点について考えていきたいと思います。よろしくおねがいします。
さて、ご存知の方は少ないと思いますが、ぼくは大昔にこんな記事を書いたことがあります。
……ハンドルネームが今と違う……! まあ別に隠してないんでいいんですけどね。
これは、なぜ「山田」が苗字の代表として扱われているのか、という部分に迫ってみた記事です。この記事ではデータベースを見ながら手作業で漢字ごとに足していくというあまりにも近距離パワー型で土属性な大男すぎる手段で集計をしていたのですが、それはさすがに近距離パワー型すぎると。「オレ ニンゲン タオス」になっちゃってると。あと100位まで集計するのですらめちゃくちゃ大変で、これ1000位とか10000位まで集計してたら頭おかしなるでという問題がありました。
Excelを学校から配布してもらって2年以上。関数の機能を使えばもっと賢く集計できるんじゃないかと思い立ち、もっと先まで集計して、「苗字にもっとも頻繁に使われている漢字ランキング」を作ってみようと思います。
気になりますよね? 「林」の入る苗字と「森」の入る苗字ではどっちが多いのかとか。俺は気になるんだよ!
まずは、インターネット上のデータベースから、苗字のランキングをぶっこ抜いてきます。表として見やすいのは通称「須崎サイト」、「全国の苗字(名字)11万種」( http://www2s.biglobe.ne.jp/~suzakihp/index40.html )様でしょうか。これの苗字ランキングをExcelにコピーし、いい感じに整えて……
ぶっこ抜いてくることに成功しました。うーん壮観。これだけ苗字が並んでいると興奮してきますね。えっしてこない? マジ?
読み方については、いろいろある読み方の中から機械的にひとつ残しているだけなので、ここに載ってる読み方が一般的な読み方じゃない可能性がありますね。「井上(いね)」とか見たことない。これは手作業かなあ……
とかく、今回は漢字にだけ注目するので、読み方は無視します。そしてこの中から、苗字に使われている「漢字」を一文字ずつ抽出します。これもMID関数というのを使っているので、機械的な抽出ですね。よっ文明の利器! これで俺も遠距離テクニック型!
さて、ここから漢字を抽出していきます。
「田中」「吉田」「山田」とかって同じ漢字が被っているので、重複を消してみると……上位1000位までに含まれている漢字は344種類であることがわかりました。
これを多いと思うか、少ないと思うかは人によるって感じでしょうか。日本の苗字はほとんどが漢字二文字なので、2×1000=2000。まったく被りがなければ2000種類の漢字が出現することになるのですが、平均して6回くらい登場するらしいです。
で、これがどれくらいの頻度で登場するのかを集計します。たとえば「田」なら、「田中」327593世帯、「吉田」205305世帯、「山田」201046世帯……というふうに集計し、合算していく感じ。これも関数にお願いしています。Excelの関数さえあれば無敵やで!!!
ちなみに「無敵」という苗字もある。
さて、それを集計した表が以下のものになります。
世帯数上位1000位まで集計した結果、最も多く含まれる漢字は「田」であることがわかりました! やったー!!!
しかも二位の「藤」に二倍近くの差をつけています。苗字の世界における「田」の勢力のデカさは異常。帝国だ帝国。
いや~まさかこんなに「田」が多いとは……
しってた。
ちなみに二番目は「藤」、そして「山」「本」「村」「川」などがつづきます。このへんは確かに、苗字にめちゃくちゃよく見かける感じしますね。100位「東」101位「子」102位「白」なんかも「わかるな~」って思う。
しかし、ここで終わらせてはもったいないので……データ数を10000位くらいまで拡張し、「色」「動物」などの属性戦や、漢字同士の出現の割合を表す関数などをこれからも実装していく予定です。かみんぐすーん!