【ポーカーチェイス】シーズンマッチを通して分散をクソ雑/雑に検証する
はじめに
どうも紅林です。突然ですが、皆さんシーズンマッチはやってますか?ちなみに私はやっていません。4か月くらい前にシーズンマッチをやっているときに成績が振るわず自分を肯定するために検証したものを今更公開します。同じくシーズンマッチの成績で悩んでいる方、分散って結局どんなもんなんだいと思っている方、そんな方の一助になれれば幸いです。
シーズンマッチのプライズ等を振り返る
シーズンマッチ2024年4月期の1戦当たりのプライズは以下の通りです。
1位 +4
2位 +2
3位 +1
4位 ー1
5位 ー2
6位 ー3
この月から1位のポイントが+4になり、ゲーム自体がプラスサムゲームになりました。そして、1日4回の制限が設けられ、1か月すべて参加すると120戦になります。ゲーム自体がプラスサムゲームのため理論上は参加すればするほどポイントが獲得できるはずで、すべての順位を同じ割合で取る平均的なプレイヤーを想定すると、120戦あたりで獲得できるポイントは20ポイントになり、原点の10ポイントと合わせると最終収支は30ポイントになります。
どうやって平均的なプレイヤーのデータを集めるか
おそらく数学が得意な人なら、計算式をたててこの範囲に収まると説明できるのでしょうが、私のような底辺文系には、計算式を突きつけられたところでそれが意味することを実感することができません。
そこで今回は力技で攻めることにしました。1位から6位が同じ割合で出力されるデータが欲しいのならだれもが1度は触ったことがあるであろう、身近なあれに頼ればよいのです。そうです。サイコロです。
この方法でアプローチすることを決めた私は、その足でダイソーに向かい、サイコロを購入しました。そして、昼夜暇さえあれば、サイコロを振り続けました。そして、ついに120回×20回分のデータを集めました。
…嘘です。サイコロのシュミレーターはネット上に転がっており、ものの数分で2400回分のデータを集めることができました。便利な世の中になったものです。
結果から分散をみてみる
早速ですが、サイコロの出力結果120回×20回をシーズンマッチの順位にあてはめ、ポイントに換算すると以下の通りになりました。ポイントが多い順から並べてみます。
①93
②80
③65
④59
⑤58
⑥58
⑦57
⑧54
⑨50
⑩43
⑪42
⑫37
⑬37
⑭18
⑮16
⑯6
⑰ー1
⑱ー1
⑲ー6
⑳ー7
なんということでしょう。理論値では30になるはずですが、想像以上にばらつきがでました。でもこれら20個のデータはすべて同じ実力のプレイヤーなんです。なお、実際は0になると破産するのですが、今回の検証上は面倒なので無視しました。また、下振れが序盤に発生するとポイントが積み重なる前に破産するので、実際の破産確率はもう少し高くなるでしょう。
クソ雑な結論
シーズンマッチはだいたい運。
身の周りにシーズンマッチの順位が良かったと鼻高々な気に入らない人がいれば、このデータを突きつけて「でもそれ上振れだよね」と鼻っ柱を折ってあげましょう。
逆に、「シーズンマッチでまた破産しちゃった…」と落ち込んでいる気になる人がいればこのデータを持って「うんうん、わかるよ。分散、辛いよね」と慰めてあげましょう。
私生活でもデータを使って上手にエクスプロイト?していきましょう。
ちょっと丁寧に検証していく(当社比)
ここまでで伝えたいことの7割は言えましたが、「流石に雑すぎるだろ…」っていうそこのあなたの意見にお答えしてちょっと踏み込んで見ていきます。
と、その前に大数の法則について雑に紹介していきます。要点は、以下の通り。
正常なデータの出現確率は高く、異常なデータの出現確率は低い。よって試行回数を重ねれば重ねるほど正常なデータが多く積み重なっていき、異常なデータは、依然、発生するものの前者のなかで目立たなくなっていく。
よって、試行回数が増えれば増えるほど、理論値と実際の値の乖離の割合が少なくなっていきます。
理論値と実際の値の差の絶対数が近づくわけではなく、あくまで少なくなっていくのは割合であることに注意してください。
また、よくある誤解として、1位の割合だけへこんでいるからこれから1位をとる確率が増えるとか、6位をめちゃくちゃとったからもう6位はとらないとか思う人がいるようですがそんなことはなく、確定した過去の結果は今後の結果に影響を与えることはないのでその点は注意しましょう。まあ6位を取り続けてティルトしてプレイが悪くなり、また6位をとってしまうみたいなことはあるかもしれませんが…
データのどこに着目するか
今回は
120回×20回のデータのなかから
・各順位の割合
・平均順位
・IM率(3位以上の割合)
・120回あたりの収支
を見ていきます。
まず、基準になる理論値データは以下です。

そして120回×20回のデータが以下です。(飛ばして良いです。)




















収支の差異の絶対値が大きい順に並べました。画像サイズがマチマチなのは許してください。
理論値からどれくらい乖離が生じうるのか
120回の試行でもっとも理論値から乖離しているのは1のデータで各項目で以下のような乖離が見られました。
・特定順位の割合差異 :9.17%
・平均順位 :0.333…位
・IM率(3位以上の割合):10.83%
・120回あたりの収支 :63
つまり、あなたがシーズンマッチ120回のデータを記録している場合、その記録と上記の±のレンジの中にあなたの実力の数値がありそうということが言えそうです。
なんて書きましたがレンジが広すぎて実質分からないようなものですね。
収束していく様子を見てみる
次に、1のデータに2のデータを合算、さらに3のデータを合算というような形で各項目の割合の差異がどれくらい小さくなっていくか見ていきます。






雑な結論
・480戦ぐらいのデータが集まってようやくそれっぽい(順位割合の差異であれば±2.5%)数字が見積もれそう。
・データの個数が多い順に値が収束していきそう。平均順位→IM率→各順位割合の差異とか。
・上の画像データのレンジと実践データの情報を突合すればなんとなく、実力の数値があるレンジが分ってきそう。
例えば、1200回やって
1位20%
2位20%
3位20%
4位13.33…%
5位13.33…%
6位13.33…%
なら
実績値の±1.5%の中に実力の値がありそう。とか
他の項目も同様
おわりに
多分データの数が1桁くらい不足してそう。プログラミングとかできればもっと楽にまとめられそうなので時間があったら勉強したい。(しない。
以上です。