30年に1度の暑さを統計的に解説してみた(正規分布の説明)
お読みいただきありがとうございます。このノートでは主体的に生きるために、人生で何をしたいかを探す自己分析、転職・留学などの転機に向けたスキルアップ、その後のライフイベントに関して綴っています。
統計好きが高じて本も出版しました。
暑い短い夏が終わりました。異常気象がなんか多いと思う今日この頃。
https://twitter.com/i/events/1024599270668754945?s=20
このようなツイートやニュースを目にすることも多いかと思います。ではこの30年に1度の暑さとかを統計的示すにはどうしたらよいのでしょうか?
30年に1度の暑さとは?
まず30年に1度の暑さを定義します。
これは割とシンプルで
1ヶ月間を平均して1/30=約3%でしか起きない最高気温
と置くことができます。30年あると1度起こる確率約3%(以下)で起こる事象ということですね。
8月の最高気温のヒストグラムを作る
統計分析で大事だといつも感じることは
目で見てみる
ということです。
データ分析をすると結果の数値に目がどうしても行きがちですが、そのデータが可視化するとどの様に分布しているのか?を散布図やヒストグラムにして可視化する。そうすることで数値に騙されることがなくなるのです。
まずはこちらから数値をダウンロード。今回は1970以降の8月の最高気温データをダウンロードしました。
次にヒストグラムを作ります。
ヒストグラムとはデータをいくつかの区間に分け、それぞれの区間に含まれるデータの個数(度数)を表の形式で表したものです。横軸には均等な区間、例えば25度〜26度などを設定し、縦軸にはそこに当てはまるデータがいくつあるかの個数が入ります。
エクセルでの作成イメージは↑
完成したヒストグラムは↑
こうして見てみるとデータは凸型で平均付近の頻度が高く平均から離れると頻度が下がる様な分布になっていることがわかります。
正規分布
平均付近の頻度が高く平均から離れると頻度が下がる様な分布でもっとも代表的である正規分布を仮定してここからは分析して行きます。データの分布をヒストグラムでチェックして正規分布していそうかを確認する作業はとても重要。詳しい定義は下記などをご参照ください。
8月の最高気温の平均と標準偏差を計算
エクセルで平均と標準偏差をとると
8月1ヶ月間の最高気温の平均:31.1度 8月1ヶ月間の最高気温の標準偏差:1.5度
となります。
標準偏差とは?
簡単に言うとデータセットの散らばりを示したものが標準偏差になります。データはそれぞれ違うのにどうやって散らばりを調整するのか?という疑問の答えはそれぞれのデータの平均を起点にする、というのが回答になります。例えば平均が50点のテストでも最低点が40点最高点が60点のテスト①と最低点が0点最高点が100点のテスト②では違いますよね。このようにデータの平均を中心にデータがどれくらい散らばっているかを表すのが標準偏差です。
こちらの標準正規分布表で平均(真ん中のOの点)から標準偏差z個分離れた外側の面積が3%以下になる、つまり.4700になるzの値をさがすと大体z=1.88個(≒.4699)になることがわかります。
z=1.88個って一体どういうこと??と思うかもしれませんがzは定義より標準偏差1個分の大きさです。8月1ヶ月の標準偏差は求めた通り1.5度。1.88個だと
1.5*1.88=2.82度 平均(O)から離れる
と言うことがわかります。
図示する!
確率分布の問題を考えるときに大切なのが図示するということ。結構Apple pencilが役に立ちます(色もすぐ変えられる)。
今回の問題は下記の様に図示されます。平均気温よりも高くなればそれ以上になる可能性が減っていきます(平均よりめちゃくちゃ暑くなる可能性はどんどん減っていくのをイメージ)。
今回のデータを元にするとある8月の1ヶ月間の平均気温が33.92℃を越すと30年に1度の平均気温ということがわかりました。
最後に
こうした統計知識があると世の中で起きることがどれくらい稀なことなのかなどがわかってきます。是非参考にしていただきコメントなどいただけたら嬉しいです。また身近な題材(人事データ)を参考に統計や分析を学ぶ本を出版し講座も行ってます!人事データ分析やNBDモデルなどに興味がある方ご連絡いただけたら嬉しいです。
自己分析、教育、自己啓発などの情報を引き続き発信していきますので、気に入っていただけたら是非是非サポートいただけたら嬉しいです!