「栄冠ナイン」の生徒の苗字を集計してみた

 こんにちは。あざばて。( https://twitter.com/bateaza )です。最近は大学の授業も終わって春休みに入り、家の中でずっと転がりまわっています。そんな日々の中で何をしているのかというと、もっぱら、二年ほど前に妹(当時高校生)から数万円を奪い取り、支払いを折半して手に入れたニンテンドースイッチです。
ちゃんと同意とったよ。さすがにそこまで悪いことしないよ。


栄冠ナインへの疑問

最近、「eBASEBALLパワフルプロ野球2020」を買いまして、「栄冠ナイン」という名作モードをずっとプレイしています。
パワプロといえば育成モードの充実した野球ゲームで、基本的にはストーリーを進行させながら主人公の能力値を成長させ、強い選手を育成することを目的としたモードが多いのですが、自分が野球選手になるのではなく、高校野球の監督に就任し、何年もかけて学校を名門校へと育てるモードが今作には搭載されています。
これは過去作にもちょこちょこ実装されていて非常に評価の高かった(廃人の多い)モードで、かくいうぼくもこれがやりたくて今作のパワプロを買いました。ずっと栄冠ナインばっかりやっています

タイトル

2020年(ゲーム内時間)からプレイを開始して、現在2039年(ゲーム内時間)。すでに20年ほど、ざっくり150人以上の生徒たちに教鞭を振るってきました
本題はこのゲームのプレイ日記ではないので詳細ははしょりますが、生徒たちには個々人に名前や能力値などの各種パラメータが実装されており、それぞれの生徒たちが個別に存在しています。

新入生

こんな感じで、我らが輝日東高校(ぼくが設定したうちの高校の名前です。この名前はぼくが去年プレイしてあまりにも熱中してしまった「アマガミ」というゲームの舞台となった高校の名前からとりました。キモいですね。ちなみにぼくは絢辻さんが大好きです。)には、毎年いろいろな生徒が入学してきます。
さて、これを見て、ぼく、思ったんですよ。

生徒たちの苗字、どれくらい珍しい苗字まで実装されてるんだろう?
実際によくある苗字の方がよく出現するんだろうか?
県ごとに苗字が偏ったりするんだろうか?

たしかぼくが以前持っていたwii版のパワプロには、上位2000位くらいまでしか苗字の読みが登録されていなかったような気がします。それに比べると、体感ですが、珍しい苗字が頻繁に登場するようにも見えました

じゃあ、調べるしかないですよね。
そう思い立ったのが2033年の卒業式を終えた頃のこと。


集計編

怒涛のメモが始まりました。

表_上位

順位や件数は「全国の苗字(名字)12万種」というサイトに掲載されているランキング1万位までのデータから順位・件数を引っ張ってきて参照させています。最初は手作業で写してたんですが、頭がおかしくなりそうだったのでExcelの関数にブチ込んでいます。ああ、文明の利器。素晴らしい。


参照元:


自分の高校だけではなく、対戦校の生徒の苗字もしっかりとメモ。

敵の高校

生徒(監督、対戦校の相手のことめちゃくちゃ熱心にメモってるな……データを集めて次からの試合に活かすんだろうな……)
ぼく(小山……87位……三村……532位……永井……137位……)

もちろん相手のベンチまでしっかり確認します。

敵のベンチ

生徒(監督、対戦校のベンチまで確認してる……熱意があるんだなあ……)
ぼく(阿部……23位……浦川……1192位……船津……1427位……)

そんなことをしているうちに、

画像6

天才な生徒が入って来たり、

画像8

夏の甲子園に出場するも準優勝に終わったり、

画像8

春の甲子園に出場するもまた準優勝に終わったり、

あと普通に地区予選初戦で敗退したりして。(画像略)

表_人数

気付いたときには、苗字のデータは1200人ぶんにもなっていました。

……松江くん、名前は覚えてるんだけど、甲子園の決勝で7失点とかしてたのか。知らなかったな。

じゃあ、そろそろ図表やグラフにして確認してみましょうか。
上位の苗字は当然のように頻出します。

表_上位

ただ、1000人いて、佐藤さんも鈴木さんも田中さんも一人。7位の山本さんは1人も登場していません。これは、実際よりも低い確率なのかもしれません。ましてや山本の多い地域でのプレイで。

表_下位

珍しい苗字では、2件しかヒットしない聖澤10件程度しかヒットしない眞山や銚子20件程度しかヒットしない宮國などが登場しました。なるほど、今作のパワプロは非常に珍しい苗字まで網羅しているといえ……そう、だと、思ったのですが。

(ちなみに、1万位以下の珍しい苗字はランキングデータが手元に無いため、手作業で打ち込みました)


苗字の収録範囲

ぼくは野球にはとんと詳しくないんですけど、「聖澤」って苗字を見た時になんとなく、「あれ?」っていう感覚を持ったんですよ。

……「聖澤」って苗字の野球選手、いたな……

ってことは、もしかして、他の希少な苗字も。

……眞山さんも銚子さんも宮國さんもいるんだ……
ってことは、「数件しかない珍しい苗字まですべて網羅しているのではなく、一定以下の珍しいものであっても、野球選手の苗字なら登録されているのでは?」という仮説が成り立ちます。
たしかに、パワプロには、実在の野球選手を模した選手のデータが内蔵されており、実際の野球チーム同士の試合をシミュレーションして遊ぶこともできます。
なら、「聖澤」選手や「銚子」選手がゲーム内に登録されていてもおかしくない(実在の選手が「転生」として高校に加入してくることもあります)。もう少し詳しく見てみましょう。

1万位以下の苗字の中で、これまでに登場した苗字は、上記のものを含めて30名(ただし被りがあるので26種類)

画像12

実在の野球選手にいるかどうか、確認してみましょう。加登脇……三ツ間……矢貫……

26種類確認してみたところ、能條、倉俣、二部、木目田、唐戸の五つはプロ野球選手にヒットしませんでした。野球に詳しい人で知ってたら教えてください。
1万位以下の珍しい苗字でもいくらかは野球選手に関係なく登録されているようですが、その数は多くはなさそうです。
ほかにも、「大鷹(約8900位)」「一岡(約8600位)」「譲原(約8000位)」などが登場しており、このへんは素で登録されているっぽいです。


苗字の出現率(傾斜編)

実際には、「聖澤」さんと「佐藤」さんでは、明らかに「佐藤」さんに出会う確率の方が高いわけです。じゃあ、複数回登場する、被っている苗字は、やはり現実でもありふれた苗字が多いのか。登場回数順でみてみると、以下のようになりました。

3回登場
朝倉 蔵本 福崎 砂川 中園
細見 横松 三浦 高口 岡崎
谷元 山地 中村 永井 土谷
市野 布川 志賀 平野 夏目
高野 永澤 村山 吉永 古川
井上 五島 深田 江藤 神田
都築 進藤 島脇 瀬川 富樫
吉田 荒木 金子 平松 西山
並木 青沼 高須 泉 駒居  (計45種類)

4回登場
谷中 山川 西原 関本 相川
筒井 荒井 中里 寺村 武田
秋元 木暮 小山 小野寺   (計14種類)

5回登場
豊田 中西 西口 加藤 山内 (計5種類)

う~~~~~~~ん。

かなり微妙。確かによくある苗字がよく被っているのだけれど、傾斜がしっかり現実のようにかかっているかといえば、もっと上位の苗字がもっと露骨に被っていないとおかしいですし、しかしかかっていないとするには、よくある苗字がよく被っているようにも見えますね。
――この感覚は共有できているんでしょうか。不安です。みんな苗字みたときに「これはこれくらいのありふれ度の苗字だな……」みたいなこと考える? 考えない? マジ?
でもまあ、「島脇」「駒居」みたいなあんまりない苗字も3回登場しているあたり、少なくとも現実と同じ傾斜で登場するわけではなさそうです。

上位数百位までが全体に占める割合をみてみます。現実世界での件数ランキングを100位ごとに区切ってそれぞれどれくらいの頻度で栄冠ナインに登場したのかを表示した図が以下のものです。見づらくてすみません。

100割合

上位200位までは1200人中それぞれ100人程度ずつ(被りがあるので100を超えている欄もあります)とかなり高い割合で登場していて、200位~800位くらいまでは50人程度800位~1700位までは30人程度そこから下は10~20人程度そして2800位を過ぎたあたりで急激にその数を減らし、10人を切るようになります

こうみると、上位の方が登場しやすいという傾斜自体は存在しているように見えますね。登録されている苗字が一律の確率で登場する、というわけではないっぽい

ちなみに現実世界での件数の割合を同じルールで図にしたのがこちら。(1万位までしか集計していません)

100リアル

上位100位までで三割以上を占め、300位までで過半数を越えます。1万位以下の苗字もたくさんあるので誤差もありますが、ざっくりとはこんなかんじ。(珍しい苗字はそれぞれの件数が少ないしね)
こう見ると、よくある上位300位くらいまでの苗字の占有率の高さがうかがえますね。
まあ、一番多い苗字だけで人口の半分くらい占めるベトナムとかいう国もあったりして、日本は苗字のバリエーションの多い方な国ではあるんですが、それでも上位の件数の多さはやっぱり圧巻です。

と、さっきの円グラフどうしを比べてみると、現実世界での苗字の偏りかたと同じレベルには偏っていないが、よくある苗字の方がよく出現する傾向は存在する、といったところでしょうか。
個人的には、苗字のありふれレベルをいくつかのレベルにわけて、それぞれに出現率を設定しているとかなのかなあ、とかってに思っています。それくらいならあるていど現実的に設定できそうやし……


苗字の出現率(登録種類編)

実際、日本の苗字は10万種類ほどあるといわれています。これを全部登録しているとは思えません。そして、「〇〇位以上までを収録」みたいな形でも、どうやら、なさそうです。(1万位以下の苗字もものによっては収録されているので)
下位に行けば行くほど、あまり収録されていなくなる……つまり、登場する種類が減るのではないでしょうか。今度は1000位ごとに区分して、登場した苗字の数を確認してみます。

円グラフ

被りを排除して登場した種類の数を数えてみたところ、どうも上位のほうは多く登録されており、3000位以下はあまり登録されていない可能性が示唆されました。3000位台の苗字は33種類しか登場していません。でも3000位~8000位くらいまではそれでもちょくちょく登場しているので、ここからももっとデータ数を増やしていけば、もっと正確なデータが見れるのかもしれません。まだ1200人しかデータ取ってないんでね。(1万人とか集計したらいいのかな……? もっとかな……?)
上位5000位くらいはたぶんそれなりに網羅されてるだろうと思うんだけど、どうなんだろう。今のところでは、「網羅性については、あまりわからない」といったところです。
まだ「登録はされているが、ぼくのプレイに登場していないだけ」の苗字がたくさんあるはずなので。


地域的な偏りについて

これはオマケレベルの話なのですが、苗字には地域による偏りがあります。たとえば沖縄で多い苗字ランキングは一位から順に「比嘉、金城、大城」。どれも本土ではあまり見かけない、沖縄特有の苗字です。このように、地域ごとに「よく見かける苗字」の分布は異なっているのです。全国順位上位の苗字でも、「佐藤」「阿部」あたりは東日本に多くて関西にはあんまりいないし、逆に関西圏ではかなりメジャーな岡本」「西川」なんかは、関東ではそこまで多く見かけません

ぼくは奈良出身で、このゲームも奈良県でプレイしています。奈良県の地区予選を勝ち抜いて全国大会に進むことになる。なので、自校の生徒は奈良県型、あるいは関西型の苗字が多いか? というと、そんなことはありませんでした

辰巳」や「」、「喜多」、「米田」「中谷」「森本」「岡本」……と、奈良県に多めに分布する苗字が奈良県の高校に登場するわけではなかったです。奈良県特有の「」が橋本学園(和歌山)、「佐々岡」が川本実業(島根)に登場したりはしました。
越境入学してるのかなあ。(適当)

ただ、沖縄の那覇南高校に「平良」と「伊志嶺」がいたときは面白かったですが、これについては、たぶん、偶然
こういうのを面白がるようになると、クラス替えとか新生活とか楽しいですよ。学校中の名簿を見て回ったり友達からクラスの苗字の一覧を貰ったりして眺めていました。不審ですね

かなり余談ですが、「咲 阿知賀編」の聖地は奈良で、奈良に特有の苗字が多く登場します。新子とか岡橋とか松実とか。奈良に多い苗字については、「阿知賀編に出てくるやつ」と覚えておきましょう。


ざっくりとまとめ

長々とした雑文でしたが、今作の「栄冠ナイン」に登場する苗字については、以上のような分析結果となりました。1200名いるので、まあ、ある程度の傾向くらいはつかめたかなと思います。


①一万位以下の希少な苗字は、ほとんどがプロ野球選手を実装したことによる苗字の実装

②ただし、それと関係なく実装されている希少な苗字もある

③件数ランキング上位の、現実でもありふれている苗字が出やすい

④ただ、現実ほどは上位の苗字に偏らない

⑤3000位くらいか、多く見て5000位くらいより下は、実装されていない苗字(登場しない苗字)も多そう

⑥地域性はおそらく考慮されていない


ということです。
いかがでしたか!?(まとめブログ)
これからも、ぼくは栄冠ナインをプレイし続け、苗字を記録し続けるつもりです。また件数が増えてきて傾向に新たな発見がみられたら、続編を書こうと思います。

苗字を見るようにしてみると、栄冠ナインが何倍も楽しめるようになりました。みんなもやってみよう、苗字集計栄冠ナイン

それでは!


追記

このゲーム、やたら動作が重いんですよね。

で、その理由の一端がわかったかもしれません。
苗字を集計してて気づいたんですが、「対戦校にも名簿がある」らしく、同じ高校と対戦すると、去年一年生だった生徒の苗字が今年の二年生の苗字と一致するんです。しかも強豪校はずっと強いチームで、毎年実力が大きく変わったりはしません。ぼくはてっきり生徒の名前やパラメータなんかは毎対戦ごとにランダムに決まっていると思ったのですが、対戦校すべてが、それぞれの生徒のパラメータを全員分もっているみたいです。同じ年に戦えば、同じ生徒と戦うことになります。

集計するとき、「こいつは苗字と学年からして、去年もいたやつだな」とかを手作業で確認しながら集計していました。

そりゃ重くなるよ。何校、何人のデータを中で処理してるんだよ。ただリアリティはめっちゃある。