確率変数を「足す」ということ
確率変数の和を考える、というのが、統計学の教科書に出てくることがあります。ん? どういうこと? というのがまず最初の感想だろうと思います。ですよね。おそらく、私も最初はそうだったはず。
カバーはUnsplashのXinYing Linが撮影した写真。
確率変数とは
統計学の講義をするつもりはないのでざっくり書くと、確率変数とは、「ランダムな値を取り得る変数」です。ただし、まったくでたらめに値が決まっているように見えて、実は背後に確率的な法則が仮定されています。
たとえば、「1~6の6つの値のどれかだけをとり得る変数で、6つの値はどれも同じ確率で出る」という確率的法則です。つまりサイコロですね。法則っぽく書くとちょっと難しかったりしますね。
あと、「0とか、0に近い値はわりによく出る。でも、ー1より小さいとか、1より大きい値はちょっと出にくくなってきて、ー2より小さいとか2より大きいとかはほとんどでなくて、ー3より小さいとか3より大きいとかが出るのは結構奇跡に近かったりする」みたいな確率的法則。長い。標準正規分布というのを、数式使わずに書き下すとこんな感じになるんだけどね。長いね。わかりにくい。
グラフにすれば分かりやすいのか
標準正規分布を、こんなグラフにすることがあります。図の、赤い線がそれです。さっき書いた説明が、すこしは分かりやすくなったかな。ならない? ちょっとだけ数字を出すと、標準正規分布というのは、平均が0、標準偏差が1の正規分布。だから山のてっぺんが、横軸0の位置にあって、そこから1離れたところ(ー1と1)が、曲線の凸と凹が入れ替わる場所(変曲点っていう)です。
緑の線は何かというと、平均値が2、標準偏差が0.5の正規分布。平均値が2なので、山のてっぺんが横軸2のところにあります。標準偏差が小さくなったので、幅が狭くなります。平均値から、標準偏差の分だけはなれたところ(つまり、2±0.5)が、変曲点になります。
上の曲線をもっときれいに見たい方は、次のサイトでどうぞ。実際に確率変数を足してみることができます。
はい、足してください。
では、赤い線で表した確率変数と、緑の線で表した確率変数を「足して」ください。
チッチッチ(時計ね)・・・ごめんなさい、パクりました。
答えは・・・黒い線です!
どう見たって違うでしょ!
答えは黒い線です、で納得できる人はさようなら。納得できました? できませんよね。私も納得できませんでした。
それでもあらかじめ言っておくと、赤で表した確率変数と、緑で表した確率変数の和は、たしかに黒で表すような正規分布になります。これは統計学的に正しい。が、学問的に正しいということと、納得できるということは別。以下では、どうして納得しがたいのだろう? と少し考えます。めんどうな話になるので、そういうのが嫌いな方は、どうぞ、もっと楽しい記事をさがしてお読みください。
このグラフは量を表していない
分かりにくさの原因は、さっきのグラフを「量を表したグラフ」だと解釈してしまっているからだ、と私は考えています。どういうことでしょう。
赤い線を見てください。
横軸0の位置に山のてっぺんが来ています。これを見て、棒グラフを見慣れてきた頭脳はこう考えます。「何かが0のものがたくさんある」。わかりにくいね。「気温が0度の日がたくさんあった」。こっちのほうが分かりやすいかな。
横軸2とかー2のところは、曲線がずいぶん下に下がっているので、「2やー2のものは少ない」。気温のたとえで言うと、「気温が2度や―2度の日は少ない」。同じように、「3やー3のものはほとんどない」、つまり「気温が3度や―3度の日はほとんどない」。などなど。
いま、気温というたとえを使ったのだけど、もっといいたとえがあったら読み替えてください。気温のたとえの場合、縦軸は「日数」を表していると(いわば脳が勝手に)解釈しています。これが間違いなのです。少なくとも、上の図は確率分布のグラフであって、そのようなグラフではない。
別の例を思いつきました。ねじを作っています。作るねじの長さは決められているので、長すぎても短すぎても不良品です。決められた長さとの差が0のものがたくさんできた。決められた長さより1ミリ長い、1ミリ短い(-1ミリ長いと言い換えてもいい)ものはけっこうある。が、3ミリ長いや3ミリ短いはほとんどない。この場合、縦軸は「ねじの本数」を表していると(脳が勝手に)解釈しています。繰り返します。これは間違いです。少なくとも、上の図は確率分布のグラフであって、そのようなグラフではない。
根本的な違いは何か
根本的な違いは、赤い線も、緑の線も、「1つの変数の性質を示している」のであって、(日数とかねじの本数とか)何かの量を示しているのではない、ということです。
縦軸は、日数とかねじの本数とかの具体的な量ではなく、「確率密度」という値を示しています。「確率密度」って難しい概念なので、「確率」と解釈しても、とりあえずこの記事を読む分には問題ない。なので、「縦軸は確率を表す」という書き方をしてしまいます。
赤い曲線で表される確率変数(1つだけです!)を考えます。「赤くん」と呼びます。赤くんにとって、確率の高いところの値(0とか、1とか、-1とか)は「変身しやすい値」です。0になったり、1になったり、-1になったり、この辺で変身して遊ぶのはらくちんです。
でも、3とか-3は確率がほとんど0に近いので、「変身しにくい=変身できる確率がとても小さい」のです。ですから、たまーーーに3に変身することもできるけれど、確率は小さい。だから、まずお目に掛かれない。
こんなふうに、赤い曲線の内側で、
「この辺の値(横軸で示された値)には変身しやすいなあ。変身! あ、この値にも変身しやすいなあ。変身! 2になるのは確率小さくて難しいなあ。変身!あ、できちゃった! でも0の近くがやっぱり確率高くて楽だなあ~ 0に変身!」
などと、ゆらゆらしながら(ぷるぷるしながら)変身ごっこを楽しんでいるさまを思い浮かべてください。これが「確率変数」の真の姿だ! とか言い張るつもりはありませんが、まあ、いわゆるひとつの、確率変数のイメージです。
緑くんも同じです。標準偏差が小さいので、変身しやすい値の範囲がだいぶ狭いですね。ちょっと気の毒かも。
赤くん+緑くん=黒くん
確率変数のイメージができたら、2つを足してください。ん? いきなり難しい? 二人が同時に変身しているさまを思い浮かべるんですよ。それを足すのです。
もうちょっと具体的に説明する前に、大事な仮定をしなくてはいけません。それは、赤くんと緑くんは「独立」ということです。そうです、ふたりとも親元を離れて独り立ちしているのです! ではなくて。
統計学で「独立」といったら、「忖度なし!」という意味です。緑くんは、「赤くんは確率高いところに変身したのかあ。じゃあ、ぼくもそうしよう」とか。逆に、「赤くんは確率高いところを選んだのか。じゃあぼくは、確率低いところに挑戦してやる!」とか。そういうことは、一切、1ミリも、絶対に考えないということです。相手は相手。自分は自分。独立独歩。我我が道を行く。
このとき、
赤くんが変身した値(たまたま選んでしまって具体的な数値がわかってしまった値。たとえば0.5とします)と、
緑くんが変身した値(同じくたまたま選んでしまった値。2.5としておきます)を、足す。0.5+2.5=3.0
この3.0という値に、黒くんは変身させられます。だって、黒くんは、赤くんと緑くんを「足した」ものだから。黒くんに、変身する値を選ぶ自由はありません。赤くん、緑くんの気まぐれによって、勝手に値を決められてしまうのです。言われるままに変身させられる人生。ああ・・・
黒くんの確率分布は
上に書いたようなことを無限に繰り返していくと、黒くんがどのような値に変身させられやすくて、どのような値には変身させられにくいのかがわかってきます。それを表したのが黒い曲線です。
この曲線は、赤い曲線の設定値と緑の曲線の設定値から計算できるものです。計算についてはここには書きませんけどね。
赤くんと緑くんの足し算で、言われるがままに変身する値を決めさせられてしまった黒くんですが、気づけば、黒い曲線(ちゃんと正規分布になっています)を確率分布として仮定した確率変数みたいに動いてしまっている。あたかも、黒い曲線のなかで自由に変身しているように変身遊びをしているように、見えてしまっている。
というのが、黒い曲線の表すところです。
短いまとめ
確率変数を足す、という計算はとても抽象的で難しい。
だから、乱数をつかって実現値を発生させ、実現値どうしを足してみる。足した値を、新しい確率変数の実現値として解釈する。
こういうことを、たとえば10000回くらい繰り返していくと、2つの確率変数の実現値(お互いに忖度なしに、別々に値を発生していたはずなのに)を足したものは、ちゃんと理論通りに計算された、新しい確率分布をもった確率変数として振る舞ってしまう。
このあたりが、確率変数の「和」という話の難しさ、抽象度の高さであり、実現値の世界で生きている私たちには、とても「理解のハードルが高い」部分なのだろうと思います。