苗字で遊ぼう③二文字苗字の前後をはっきりさせたい

こんにちは。あざばて。(https://twitter.com/bateaza)です。相変わらず苗字オタクです。

先日のM-1グランプリ、見ました?
ぼくは真空ジェシカのネタが一番好きでした。まあ昔から好きなんでね。

真空ジェシカは、ボケの川北と、ツッコミのガク(川俣)からなるコンビです。で、これを見て思いました。

「川北」って、「北川」じゃないんだな って。

そもそも、「北川」は北にある川をイメージさせるのに対して、
「川北」は川の北岸をイメージさせます。
どうも成り立ちから違うように思われますね。

川北のイメージ
北川のイメージ

さて、「北川」は約200位、「川北」は約1400位ということで、「北川」のほうがけっこうメジャーな苗字ということになります。これは直観に反しませんね。

で、もちろん「北川」を見た回数のほうが「川北」を見た回数より多いからっていうのもありますけど、この直観はそれだけに起因するものでしょうか?

たとえば、仮に「大口(おおぐち)」と「口大(くちお゛お)」だったらどっちが多いか、見たことなくてもわかりそうですよね。
自分の見たことある苗字を思い出したときに「その字が前に来るか、後ろに来るか」を参照することが可能だということです。

「大」は一文字目に来やすいし、「口」は二文字目に来やすい――そういうイメージがあるでしょうし、実際「口」で始まる苗字は10000位前後の「口石(くちいし)」まで登場しません。「大」が二文字目にくる苗字にいたっては、「坂大(ばんだい)」の15000位あたりまで出てきません。
(漢字二文字の苗字に限った場合)

坂大? 見覚えなさすぎる。

それをデータにしてみました。

苗字ランキング一万位までの苗字のうち、漢字二文字のものを集計。佐々木さんや林さんは今回はおやすみです。
これらで使用されている苗字における、一文字目での使用・二文字目での使用をまとめ、以下の話を進めていきます。種類ではなく、「軒数」で集計しています。佐藤や鈴木に重みを付けているわけですね。

データ元はこちら。

上位の漢字から見てみよう

最も使用頻度の高い漢字から順番に、

」:4336995件
 一文字目率:14.85%(644114件)
」:2206812件
 一文字目率:21.20%(467893件)
」:2095264件
 一文字目率:53.66%(1124404件)
」:1505020件
 一文字目率:16.16%(243270件)
」:1486288件
 一文字目率:8.75%(130107件)
」:1433054件
 一文字目率:25.26%(361940件)
」:1423722件
 一文字目率:18.22%(259345件)
」:1368757件
 一文字目率:67.07%(918084件)
」:1353799件
 一文字目率:19.03%(257650件)
」:1145592件
 一文字目率:24.04%(275369件)

以上が、出現頻度の高い漢字ベスト10の数値を並べてみたものです。
まず、「二文字目で使われやすい」傾向にあるということがわかりますね。
実際、「川」とか「藤」とか、一文字目でも二文字目でも使う漢字だとはいえ、こう数字にしてみると、なるほど二文字目に使われることのほうが多いのだということが一目瞭然です。
出現頻度の高い漢字ベスト10の中では、「山」と「中」だけが一文字目に使われる頻度のほうが高い漢字となっていますが、それでも5割台と6割台なわけで、典型的な「一文字目」の漢字ではないということがいえますね。

このあたりから読み取れるのは、「苗字は一文字目のほうがバリエーションがある」ということです。
二文字目は、上位の漢字に集中する傾向にある。だから、相対的に、二文字目での使用頻度が高い漢字が、ランキングの上位を占めているということですね。

これは、苗字のバリエーションが少なく、上位の苗字に集中する傾向のある東北の苗字が全国ランキングの上位に現れやすいという話にも通じてきますね。

西日本では苗字の種類が多い傾向にあり、上位の苗字の総人口に占める割合がそこまで高くないのですが、東北では上位の苗字の総人口に占める割合がめちゃくちゃ高いという特徴があります。

佐藤は東北で圧倒的なシェア一位を誇っていますが、西日本ではトップありふれ苗字ではありません
西日本で多い苗字である田中山本は、その占有率が低いので、全国ランキングのトップには躍り出ず、4位や7位などに甘んじているというわけです。

それと同じで、一文字目に使われやすい漢字と二文字目に使われやすい漢字では、二文字目に使われやすい漢字のほうが、全体として件数が集中し、全体のランキングでも上位に食い込んでくるということなのでしょう。

創作なんかでも、変な言葉に由来する苗字のキャラって、「〇〇田」とか「〇〇山」って形になりがちで、「大〇〇」とか「佐〇〇」にはなりませんよね。

ヤバ沢さん(『SKET DANCE』)
ゾフ田(『裸一貫!つづ井さん』)

一文字目ではある程度好き勝手してもいいけれども、二文字目はよくある漢字を使うことで、「苗字らしさ」を認識させることになると。ぼくたちは「苗字らしいかどうか」の判断をするとき、二文字目に頼りがちみたいですね。
そういう傾向が、「二文字目のほうが上位に集中する」というデータによって裏付けられているといってもいいのかもしれません。


縦軸:一文字目の件数、横軸:二文字目の件数

グラフにしてみたものが、これです。
右に行くほど二文字目に使われ、上に行くほど一文字目に使われています。
左下から右上に対角線を引いて、左上に行くほど一文字目に、右下に行くほど二文字目に使われているということになります。

どうしても点が密集するところは見づらいですが、とにかく、左上方向よりも右下方向に点が集まっていることがわかりますね。

もうちょっと下の順位(件数ランキング11~30位)の苗字も見てみましょう。

「小」一文字目率:100%
「原」一文字目率:11.08%
「松」一文字目率:80.10%
「大」一文字目率:100%
「高」一文字目率:95.47%
「島」一文字目率:14.05%
「上」一文字目率:36.83%
「岡」一文字目率:45.75%
「橋」一文字目率:22.24%
「谷」一文字目率:20.34%
「崎」一文字目率:1.30%
「口」一文字目率:0.06%
「佐」一文字目率:97.05%
「石」一文字目率:82.09%
「西」一文字目率:69.82%
「吉」一文字目率:92.22%
「沢」一文字目率:11.25%
「鈴」一文字目率:100%
「内」一文字目率:36.12%
「宮」一文字目率:85.04%

ここにきて、「小」「大」「鈴」と、二文字目にはまったく使われていない漢字が登場しました。それぞれ、二文字目に使われる最多の苗字は「丸小(まるこ)」約40件「坂大(ばんだい)」約90件「根鈴(ねれい)」約25件と、それぞれ非常に珍しい苗字になってしまいます。

根鈴(ねれい)、ヤバ苗字すぎる。音読みなんや。

また「高」「佐」「吉」など、一文字目率が9割を超える漢字も現れました。
「日高」「大高」、「岩佐」「遊佐」、「末吉」「住吉」と、探せば二文字目に来るものも見当たりますが、確かに一文字目に現れる印象が圧倒的に強いですね。

特徴的なのは、「一文字目率が0%」の苗字が現れないこと。
この領域では「崎」と「口」が二文字目に使われやすい特徴的な漢字ということになりますが、「崎山」約1300位、「崎田」約2600位、「口石」約9300位、「口田」約9700位と、1万位圏内にも一文字目に用いる苗字が現れます。

二文字目に使われやすいよくある漢字は、一文字目に使っても、「〇小」「〇大」「〇鈴」に比べると、ある程度苗字っぽく仕上がるということでしょうか。

これより下の順位の漢字の中にも、「三」、「新」、「今」……と、二文字目における用例がかなり珍しい苗字まで見当たらないものがたびたび見つかります。

二文字目が「三」の最多苗字:「高三(たかみ)」約40件
二文字目が「新」の最多苗字:「吉新(よしあら)」約130件
二文字目が「今」の最多苗字:「米今(よねいま)」約100件

レア度が明らかに高いですね。

いっぽうで、二文字目に用例が限定される漢字は「場」「方」「司」と、その出現頻度は一軍というにはやや心許ないメンツが並びました。

縦軸:一文字目の件数 横軸:二文字目の件数

11位~30位の苗字をまたグラフにしてみたものがこちら。
先ほどの1位~10位に比べると、左上方向にもプロットができているのがわかりますね。

ちょうど真ん中にくる漢字

数ある苗字あるある漢字の中でも、「一文字目族」「二文字目族」「その中間」が、グラデーションになって存在することがわかりました。

←一文字目率が高い 二文字目率が高い→
鈴 吉 松 中 山 岡 木 本 藤 田

――こう並べてみると、そこそこ納得感ありますね。
「中」「山」「岡」なんかはどっちの苗字も見たことありますし、
「本」「藤」あたりは二文字目の苗字のほうが多そう、
逆に「吉」「松」あたりは一文字目の苗字が多いっていうのも直観に反さない結果です。

ここまでに登場した漢字では「山」の53%、「岡」の45%という数字が真ん中に近いというデータが得られましたが、ほかの漢字ではどのようなものが「真ん中」すなわち、一文字目・二文字目に均等に現れるのでしょうか?

「一文字目率」が45~55%の漢字を、件数順に紹介していきます。

「山」53.66%
「岡」45.75%
「永」50.01%
「水」46.19%
「江」51.55%
「岸」51.07%
「多」50.95%
「羽」48.1%
「手」53.01%
「室」50.39%
「光」45.45%
「住」54.33%
「桐」53.1%
「目」48.27%
「堂」53.65%
「肥」54.76%
「引」49.49%
「政」46.21%
「隅」53.88%
「実」48.36%
「刈」47.47%
「柄」53.99%
「縄」50.16%
「刀」48.29%
「干」54.85%
「澄」48.34%
「車」49.96%
「紫」54.3%
「叶」54.95%
「善」46.75%
「篭」50.69%
「通」45.63%
「造」52.1%
「糠」48.48%
「陸」50.0%

「陸」はぴったり50%です。何?
「常陸」「陸田」がぴったり同じ件数ヒットしました。それだけです。珍しいからピンと来ないですね。

よく見かける漢字の範疇の中では、「永」が最も一文字目・二文字目に均等に用いられています
「永井」「永田」、「松永」「徳永」……確かに言われてみれば均等かもしれません。

というわけで、今回はこんな感じで、まとめたデータをざっくりと見ていきました。最後に、10000位の苗字までに1回でも登場した苗字をぜんぶプロットしたグラフを表示して終わりにしたいと思います。


縦軸:一文字目の件数 横軸:二文字目の件数

「田」の件数が圧倒的すぎる。

せっかくとったデータなので、これからも遊べたら遊ぼうと思います。それでは。