【ポーカーチェイス】シーズンマッチを通して分散をクソ雑/雑に検証する

2024年9月17日 23:55

はじめに

　どうも紅林です。突然ですが、皆さんシーズンマッチはやってますか？ちなみに私はやっていません。4か月くらい前にシーズンマッチをやっているときに成績が振るわず自分を肯定するために検証したものを今更公開します。同じくシーズンマッチの成績で悩んでいる方、分散って結局どんなもんなんだいと思っている方、そんな方の一助になれれば幸いです。

シーズンマッチのプライズ等を振り返る

シーズンマッチ２０２４年４月期の１戦当たりのプライズは以下の通りです。

１位　＋４
２位　＋２
３位　＋１
４位　ー１
５位　ー２
６位　ー３

　この月から１位のポイントが＋４になり、ゲーム自体がプラスサムゲームになりました。そして、１日４回の制限が設けられ、１か月すべて参加すると１２０戦になります。ゲーム自体がプラスサムゲームのため理論上は参加すればするほどポイントが獲得できるはずで、すべての順位を同じ割合で取る平均的なプレイヤーを想定すると、１２０戦あたりで獲得できるポイントは２０ポイントになり、原点の１０ポイントと合わせると最終収支は３０ポイントになります。

どうやって平均的なプレイヤーのデータを集めるか

　おそらく数学が得意な人なら、計算式をたててこの範囲に収まると説明できるのでしょうが、私のような底辺文系には、計算式を突きつけられたところでそれが意味することを実感することができません。
　そこで今回は力技で攻めることにしました。１位から６位が同じ割合で出力されるデータが欲しいのならだれもが１度は触ったことがあるであろう、身近なあれに頼ればよいのです。そうです。サイコロです。
　この方法でアプローチすることを決めた私は、その足でダイソーに向かい、サイコロを購入しました。そして、昼夜暇さえあれば、サイコロを振り続けました。そして、ついに１２０回×２０回分のデータを集めました。

　…嘘です。サイコロのシュミレーターはネット上に転がっており、ものの数分で２４００回分のデータを集めることができました。便利な世の中になったものです。

結果から分散をみてみる

　早速ですが、サイコロの出力結果１２０回×２０回をシーズンマッチの順位にあてはめ、ポイントに換算すると以下の通りになりました。ポイントが多い順から並べてみます。

①９３
②８０
③６５
④５９
⑤５８
⑥５８
⑦５７
⑧５４
⑨５０
⑩４３
⑪４２
⑫３７
⑬３７
⑭１８
⑮１６
⑯６
⑰ー１
⑱ー１
⑲ー６
⑳ー７

　なんということでしょう。理論値では３０になるはずですが、想像以上にばらつきがでました。でもこれら２０個のデータはすべて同じ実力のプレイヤーなんです。なお、実際は０になると破産するのですが、今回の検証上は面倒なので無視しました。また、下振れが序盤に発生するとポイントが積み重なる前に破産するので、実際の破産確率はもう少し高くなるでしょう。

クソ雑な結論

シーズンマッチはだいたい運。
　身の周りにシーズンマッチの順位が良かったと鼻高々な気に入らない人がいれば、このデータを突きつけて「でもそれ上振れだよね」と鼻っ柱を折ってあげましょう。
　逆に、「シーズンマッチでまた破産しちゃった…」と落ち込んでいる気になる人がいればこのデータを持って「うんうん、わかるよ。分散、辛いよね」と慰めてあげましょう。
　私生活でもデータを使って上手にエクスプロイト？していきましょう。

ちょっと丁寧に検証していく（当社比）

　ここまでで伝えたいことの７割は言えましたが、「流石に雑すぎるだろ…」っていうそこのあなたの意見にお答えしてちょっと踏み込んで見ていきます。
　と、その前に大数の法則について雑に紹介していきます。要点は、以下の通り。

　正常なデータの出現確率は高く、異常なデータの出現確率は低い。よって試行回数を重ねれば重ねるほど正常なデータが多く積み重なっていき、異常なデータは、依然、発生するものの前者のなかで目立たなくなっていく。

　よって、試行回数が増えれば増えるほど、理論値と実際の値の乖離の割合が少なくなっていきます。
　理論値と実際の値の差の絶対数が近づくわけではなく、あくまで少なくなっていくのは割合であることに注意してください。
　また、よくある誤解として、１位の割合だけへこんでいるからこれから１位をとる確率が増えるとか、６位をめちゃくちゃとったからもう６位はとらないとか思う人がいるようですがそんなことはなく、確定した過去の結果は今後の結果に影響を与えることはないのでその点は注意しましょう。まあ６位を取り続けてティルトしてプレイが悪くなり、また６位をとってしまうみたいなことはあるかもしれませんが…

データのどこに着目するか

今回は
１２０回×２０回のデータのなかから
・各順位の割合
・平均順位
・IM率（３位以上の割合）
・１２０回あたりの収支
を見ていきます。

まず、基準になる理論値データは以下です。

そして１２０回×２０回のデータが以下です。（飛ばして良いです。）

　収支の差異の絶対値が大きい順に並べました。画像サイズがマチマチなのは許してください。

理論値からどれくらい乖離が生じうるのか

　１２０回の試行でもっとも理論値から乖離しているのは１のデータで各項目で以下のような乖離が見られました。
・特定順位の割合差異　　：9.17%
・平均順位　　　　　　　：0.333…位
・IM率（３位以上の割合）：10.83%
・１２０回あたりの収支　：63

　つまり、あなたがシーズンマッチ１２０回のデータを記録している場合、その記録と上記の±のレンジの中にあなたの実力の数値がありそうということが言えそうです。
　なんて書きましたがレンジが広すぎて実質分からないようなものですね。

収束していく様子を見てみる

　次に、１のデータに２のデータを合算、さらに３のデータを合算というような形で各項目の割合の差異がどれくらい小さくなっていくか見ていきます。

雑な結論

・480戦ぐらいのデータが集まってようやくそれっぽい（順位割合の差異であれば±2.5%）数字が見積もれそう。
・データの個数が多い順に値が収束していきそう。平均順位→IM率→各順位割合の差異とか。
・上の画像データのレンジと実践データの情報を突合すればなんとなく、実力の数値があるレンジが分ってきそう。

例えば、１２００回やって

１位２０％
２位２０％
３位２０％
４位１３．３３…％
５位１３．３３…％
６位１３．３３…％
なら
実績値の±1.5%の中に実力の値がありそう。とか
他の項目も同様

おわりに

　多分データの数が１桁くらい不足してそう。プログラミングとかできればもっと楽にまとめられそうなので時間があったら勉強したい。（しない。

以上です。