見出し画像

相撲の八百長疑惑を統計で解明する

みなさんこんにちは。たくろーです。

統計学ってすごく難しいイメージがありますよね。自分もそうでした。しかし、大学の授業では統計学を履修することが必須であり、否応なく統計の授業を学んでいました。その中で、難しい数式や理解しにくい概念等がたくさん出てきますが、実世界に応用することができる例もたくさんあることを学びました。

ここで紹介するのも、その統計学を勉強している際に出てきた面白い例です。その名も『統計学で解明する相撲の八百長疑惑』です!ぜひ気楽に読んでみてください。


まず、このグラフを見て欲しい。

スクリーンショット 2020-09-09 22.47.59

これは全相撲力士の勝利数を横軸に、その力士が全体の何%であったのかを縦軸に表したグラフだ。そして、Actual dataというのが実際に取り組みが行われた結果のグラフ、そしてBinomialというのが統計学的に推測されたデータのグラフである。(Binomial dataの求め方は以下参照、2項分布のグラフである。)

この二つのグラフは、山の頂上付近で大きく異なっている。統計的に推測されるデータに比べ、実際の取り組みのデータが7勝のところが極端に少なく、8勝のところが非常に多くなっているのである。なぜ??

相撲について少し解説しておくと、相撲は1場所につき15試合が行われ、その中の勝ち星の数によってその場所の優勝を決める。優勝争いに関われるのは数少ない力士であるが、他の力士も勝ち越しという過半数以上の勝ち星(つまり8勝)以上を狙っているのである。この勝ち越しか負け越しかによって、次の場所の番付が決まってくるのである。

つまり14日目を終えた時点で7勝7敗の力士は、次の試合で勝と勝ち越し、負けると負け越しとなり、どうしても勝ちたい、と思うはずである。そして八百長をしてまでも勝ちたいとも思うかもしれない。

ここで、前に示したグラフをもう一度見て欲しい。そう考えると、本来ならば推定されるグラフになっていたにもかかわらず、何かしらの外部的なものが、この勝敗に関わっていた可能性が出てくる。それが、八百長ではないか、ということだ。

確かに、7勝7敗の力士が『火事場の馬鹿力』的なものが働いてこのようなグラフのズレが起こっているのかもしれない。実際に確認しようにも、この八百長が行われているかの調査は聞き込みしか方法がなく、困難を極めるだろう。

しかし、本来なるはずのものだったグラフが、勝利の欲求のために、少し歪んだグラフになっていることから、相撲で八百長が行われているかということを暗に示しているのである

このグラフは統計ソフトRを使って自分で書くこともできる。data world(https://data.world)から、Sumo Wrestlingのデータを入手。それをプロットし、二項分布をn=試合数でグラフを書くことで、そのグラフを書くことができる。ぜひやってみて欲しい。

出典:http://pricetheory.uchicago.edu/levitt/Papers/DugganLevitt2002.pdf

という例がある。出典に示したように、Mark DugganとSteven D. Levittの論文では大相撲の八百長の可能性を指摘しており、実際に2010年には八百長の物証を力士の携帯電話の中から発見したことで、逮捕されているhttps://ja.wikipedia.org/wiki/大相撲野球賭博問題

この論文の著者が書いている本『ヤバイ経済学』が最近読んだ本の中で一番面白かった本であり、経済学・統計学の事例を知ることができる。ぜひ、暇な時に読んでもらいたい。後悔はしないはずだ。


さて、他人の論文の内容を紹介するだけでは、つまらないしオリジナリティも出ないなと思ったので、自分が実際に統計学の授業のレポートで先生に提出した内容の紹介を、勝手ながら行いたいと思う。

『戦時中の身体調査の際の徴兵逃れの実態』という題のレポートを書いた。身長は正規分布におおよそ近似すると言われている。そして、戦時中日本軍では徴兵が行われており、その中に身体検査がありその最低身長はは153cmと定められていた。皆は徴兵には行きたくないと考えていたとすると、そこにその身体調査のごまかしが行われていたのではないか、ということが考えられると思ったのだ。実際にはうまくいかず、正確な値は出てこなかったのだが、これを読んでいて『自分は正確にできるよ』っという猛者は、ぜひやって私に教えてくれないだろうか。


という感じです。統計で実際をモデルで近似することができるってとてもワクワクしますね!ぜひ皆さんもやってみてください。


いいなと思ったら応援しよう!