統計学とは?なんでしょうか?履修を通じて自問自答してみました。(その1「統計学とは?」「統計量」)
統計学とは?なんでしょうか?履修を通じて自問自答してみました。
(その1「統計学とは?」「統計量」)
社会人専門大学院の1年目の2クオーター目に「統計学」を履修しています!この科目はコア科目の中の「必修科目」になっています!なので、関学のIBA受講生は全員この科目を履修することになります!何で「統計学」が必修なんやろう?と最初は思っていました!データ分析が大切や!と多くの方がおっしゃっておりデータアナリストがひっぱりだこになっている現状は感じておりました!そして「統計学」を学んでいくに従ってこの学科が必修になっている理由が徐々にわかって来ました!最終的には、多くの人たち(意思決定者たち)を具体的な数値などを使って説得するために、この統計学は絶対に必要なんや!と思い至るようになりました!なので、理解が間違っているかも知れませんが、高校に入ってからは現代国語以外、まったく勉強の出来なかった私が「統計学」についての根本的なところだけでも自分はわかっているのかな?という祈りを込めてこれを書いてみました!「解釈が間違っているで!」などがあればすぐに修正いたしますので是非、ご指摘を。私も60年以上生きていて、「統計学」を初めて学び始め、初めて使う言葉や新たなエクセルの関数やエクセルの分析ツールなどなどの知らない事がたくさん出て来ました。さらにはこれからの課題ですが「R」という統計分析ツールを自らプログラムをして統計をすることが求められて来るそうです!
「統計学とは何やねん?」という課題へのそもそもの答えは。K先生曰く
「統計は『データ』をより役に立つ『情報』にしてくれるものである。そして、その『情報』が、予測する確率を変えてくれる。」
ということだそうです!現在あるデータを、未来に向けての確率に変換して意思決定の材料にするということ。簡単に言うとPOSデータなどのデータがあります。それ自体は事実の積み重なったもの。何歳くらいのどこに住んでいる人がいつ何を何個買ったなどの数値が集計されてきます。これが「データ」です。それはエクセルなどの表におびただしい数字の表として記載されたりします!そのままでは何をしたらええのやら、わかりません。そこで、今度はそれらのデータを分析する必要が出て来ます!ここでこれらのデータの統計処理を行ったり分析(回帰分析など)を行ったりして行きます。
そうすると、見えてくるものがあります!
例えば温度とアイスキャンデーの売れ行きとか?の関係はどうなっているのか?みたいなものです。常識的に考えても温度が上がれば売り上げが伸びるだろうということは分かりますが、それ以外にどの地域で売れているのか?何歳くらいの人が買っているのか?などのことも統計的に(数字の尺度で)分かるようになります。これを「情報」と言うそうです!
「データ」を統計・分析し「情報」に加工し、その「情報」を見て、会社の事業部員や経営者などが「戦略立案」を考えます!温度の変化の予測に応じて生産量を調整するというように。(ちなみに、「ガイアの夜明け」でやっていたと思うのですが、森永製菓は「チョコモナカジャンボ」の生産をそのように行われていて、出来るだけ新鮮な状態の製品を食べて欲しいということも含めて温度の予測に合わせて生産量を調整して製造されているそうです。)
なので、統計学は
1、「データ」→2、「分析」→3、「情報の獲得」→4、「戦略立案」
という風に展開されます!分析されたデータが確率で示されますので、それによってリスクを極力減らしていき、成功する可能性の高い戦略を選択することが出来ます!
これまで「ヤマカン」でやっていたかも知れない企業の意思決定をこうして、数値など置きかえて確率○○%といった形で提示すれば戦略や経営判断がより的確になるのには大いに納得です!誰もその「数字」には「NO」と言えないのでは?
余談ですが、4の「戦略立案」のためには、きちんと「情報」を読み込む必要がありますし、また、データをどのように分析したのか?を少なくとも理解する必要があります。そうでないと、正しい分析だったのか?という根源的なところが問われてくることになります!それらを踏まえた上で「戦略」の仮説を立ててみるということが問われて来るのでしょう!不確実で曖昧なVUCAの時代にはまさに、その仮説構築力と情報を読み解きアイデアを出すチカラが経営者に求められて来るのでしょう!データ分析された情報を基にきちんと戦略仮説を立てられること。ここにはある種のアーティスティックな能力が問われて来るのかも知れません。特に、スタートアップの企業などは、ある種の理念からの起業という方が先に立っているのかもしれません。それ以外のリスクを極力減らして、どの方向に行けばいいのか?を考えるために「統計学」が必要なんやで!ということをひしひしと感じております!しかしながら先生が語られる内容も数式も含めて、何をおっしゃっているのかが、なかなか入って来ません。1クオーターで履修した「経済学」と同様の状況で四苦八苦しています。
参考書も初心者向けの漫画みたいなものから、数式がほとんど出ないもの、そして先生が薦めておられる参考書や教科書などを読んで、繰り返し学んでいるというのが現状です!エクセルの使い方も初心者なので、その使い方で、まず戸惑うという「あかんスパイラル」にはまっていく自分をほぼ日常的に発見しております。でも、何度か繰り返していると、うっすらと見えて来るものがある。これは、社会人で目の前の仕事だけしていたら得られなかったものやと思っています。英語などもある時期、突然、パーっと理解できたりすることがありますよね。「統計学」はいまだ理解していると言うことすら出来ませんが、期末テストに向けて、基本の概念だけでもちゃんと理解しようと思ってこれを書いています。
統計学の教科書の順番に記していくと、統計学で学ぶことは以下の要素になります!
(※以下のまとめの引用元は、IBAでのK先生の授業と「入門統計学 第2版」栗原伸一:著(@オーム社)を参考にさせて頂いています。
)
<統計学>
1、統計量の算出(その後、1-2、確率について学びます)
2、推計から検定
3、回帰分析
4、ベイズの定理(厳密にはこれは統計とは少し違うジャンルだそうです)
(※でも、現実的にはとても良く利用されている定理だそうです)
この順番で、少し細かく、説明&展開していきたいと思います。
1、統計量
データがたくさんある中でどうして統計をしていくのか?というところから始まります!
まず、平均を学びます。平均には算術平均(=AVERAGE)、加重平均(=SUMPRODUCT)、幾何平均(=GEOMEAN)、移動平均(データ→分析ツール→移動平均)などがあります。(カッコ内に赤字でエクセルの計算式を入れておきます)
「幾何平均」はまったく聞いたことがない言葉やったんですが、実際に変化率の平均を算出するためにはとても重要な平均やということがわかりました。
教科書から「2年前から1年前にかけて物価が対前年比2倍になり、1年前から今年にかけて物価が対前年比8倍になりました。この2年間の対前年比の平均は?」というのがありました。算術平均は(2+8)÷2=5倍ですよね。
幾何平均だと=2×8^0.5(16の√ルート)ですので=4倍となります。
さらに説明すると
100円やったものが2年目は2倍なので200円にそして3年目の今年はその8倍なので1600円になっているということです!
算術平均やと5倍やったので5倍×5倍=25倍(2500円)になってしまいます!
幾何平均は4倍でしたので 4倍×4倍=16倍の(1600円)と現実に沿ったものとなりますよね。
説明がわかりにくいかもですが、このように前の変化の割合などが加味されるようなもの、例えば金利の複利計算などはこの幾何平均の方が実態に近い数字になるそうです。
授業で出た問題を簡単にしてここに記します!株式の利率と収益の問題です!
株の利率が1年目 2.19%、2年目 35.48%、3年目 ‐24.55%、4年目 ‐16.22%、
5年目 ‐24.81%、6年目 51.13%とします。
100万円を投資すると6年後はどうなっていたか?というもの。
算術平均すると (=AVERAGE( , ))株式は+3.87%になります。
これやったら儲かっているから、ええやん!と思うかも知れません。
しかし実際には簡単に計算すると
(100万)×(1+2.19%)×(1+35.48%)×(1‐24.55%)×(1-‐16.22%)×(1‐24.81%)×(1+51.13%)ということになるので結果は
=99.45万 となります。(100万円より減っていますね。)
幾何平均をすると
(=GEOMEAN( , ))株式の平均は ‐0.09%となります。
ただし関数で計算する場合は%の数字を1-(セル)=1-(‐25%)=0.75 とかに変換する作業が必要となります。
さらに平均には「調和平均」というものがあります。
エクセル関数は(=HARMEAN( 、 ))という、まさにハーモニーな関数。
先生の問題やと、
自動車で目的地へ往復した時の平均時速の問題です!
Q:行きは時速100キロ 帰りは時速40キロ 平均時速は?というもの。
普通に算術平均だと 70キロですよね。でも調和平均は
平均時速=距離÷時間 です!片道の距離をdとすると往復で2dとなります。その2dの距離を行きにかかった時間 d÷100キロ 帰りにかかった時間 d÷40キロ を足した時間で割ったものが調和平均となるそうです。
計算すると57.1キロという数字が出て来ます。
数式にすると
2d/(d/100+d/40)=57.1
となります。
実はドル・コスト平均法などの買い付け方法のメリットなどがこの平均を求めることで
算出できます!授業では、株式を毎月20株ずつ買うのと、定額で買う場合(毎月1万とか)で株値に連動して買うのと(この場合、株数が毎月変わります)を、この調和平均で求めると定株数方式(※例:毎月20株ずつ買う)より定額(※例:毎月1万とか)で買う方が安く買えるという数字がきちんと出て来ます!FPの方などはそれを知っているので、アドバイスが出来るんですね。
平均ではない、データの真ん中を取るということが行われることがあります。例えばものすごいデータが平均からかけ離れたものがある場合。いわゆる「外れ値」などと言われているものです!(幾何平均でも外れ値を少なく出来るそうですが。)それらの場合は「外れ値」も含めて真ん中にある値を選ぶことである程度の誤差が適正化できるそうです。それを「中央値」と言います。
(1,2,3,4,5)と並んでいた場合の(3)。中央値の関数は(=MEDIAN)。
また最もたくさん出て来る値を最頻値(=MODE)と言います。
(1,1,2,2,3,3,3,4,5)の場合の(3)
平均には「算術平均」「幾何平均」「調和平均」などの平均があるので、目的に応じて使い分けることが大切だとおっしゃっていました。
平均値は、計算すると基本、「算術平均」≥「幾何平均」≥「調和平均」となるそうです!
(※ しかし、どのようにして、目的に応じて使い分けをすることが出来るのかがわからないのですが…。)
ここから「散らばり」についてのお話になります。
散らばりを表現する方法として
1、範囲(Range) 最大―最小
2、四分位範囲 大きい順に並べ25%ずつに分類
3、分散、標準偏差
というのがあります。
1と2に関してエクセル関数でこんなのがあります
例:小さいほうから40%の場合
=PERCENTILE(データ、0.4) みたいな式があります
小さい方から関数を記すと
MIN=PERCENTILE(0)
QUARTILE(1)=PERCENTILE(0.25)
MEDIAN=PERCENTILE(0.5)
QUARTILE(3)=PERCENTILE(0.75)
MAX= PERCENTILE(1)
みたいな感じです。
ここから「分散・標準偏差」のお話です。
統計のデータを取ると多くの場合が以下のような正規分布のカタチを取ることが知られています。
(引用元:https://bellcurve.jp/statistics/blog/15344.html)
エクセルなどでもこうしたグラフが作成できます。
多くの人が受験時の「偏差値」のグラフを思い浮かべたのではないでしょうか?偏差値はこのグラフのゼロの部分を50にしたというものです!50が平均。そして、大体25から75くらいの間に収まっていたのはみなさんもご存じなのではないでしょうか?
「偏差」とは平均と実際の値との「差」を言います。
その差は「+」や「-」にもなります。
「偏差」の「平方和」という統計量があります。「偏差」を2乗すると符号がプラスに揃いますので、その差がわかりやすくなりますよね。
それを「偏差平方和」(sum of squared deviation)と言います。(文字通りですよね)
これは、エクセル関数の(=DEVSQ)で計算できるそうです!
「偏差」の「平方和」の平均が「分散」と言います。
(これに関しては後ほど改めて記します)
また、エクセルのデータを以下の散布図のグラフにすることもできます!
(引用元:https://activation-service.jp/iso/terms/1956)
これらの点は各データです。統計はそれらの点のデータを分析するということであると。
関係があるのか、どうなのか?そんなことも含めて、相互の関係などを分析していきます。
「分散」は文字通り、どれくらいデータが散らばっているのか?ということ。上の画像の「無相関」などはかなりバラバラに散らばっているのではないでしょうか?「分散」(variance)はさきほどの「偏差平方和」をデータ数nで割った統計量(言い換えると「偏差平方和」の「平均」ですね)のことを言います。エクセルでは(=VAR.P)となります。
「分散」から「標準偏差」が求められます。分散は2乗した「偏差平方和」が元になっているので元に戻すために2乗を戻す必要が出て来ます!その時に登場するのは「ルート・√」です!エクセルでは(=X^0.5)と記述します!(2の逆数とも言うらしいです)(※逆に2乗は(=X^2))
この「標準偏差」(standard deviation)を一気に求めるにはエクセルで
(=STDEV.P)(=STDEV)を使用します。
まとめると
「データ」→「平均」→「偏差」→「分散」(偏差2乗の平均)→「標準偏差」(√分散)という順番で計算を進めていくことがわかりましたでしょうか?
(私は、これを何度も繰り返してぎりぎりわかるようになって来ました。(涙))
こうした基本統計量はエクセルの分析ツールを使うと一発で出ます。
「データ」→「データ分析」→「基本統計量」→データ選択して→結果
「標準偏差」がデータのばらつきを表すもっとも一般的な統計量、と言われているそうです。
また実際にはまったく同じものの比較なら上記でいいのですが、固体の単位が違う場合などは比較が難しくなりますよね。たとえば「みかん」と「リンゴ」の重さのバラツキ具合とか?(そもそも大きさのレベルが違うので比較しにくい。)
その場合はこの「標準偏差」をそれぞれの「平均」で割り算します。
これを「変動係数」(coefficient of variation)と言います。
CV=標準偏差/平均
という式で表されます!(=STDEV/AVERAGE)
これから「相関」についてのお話をしていきたいと思います!
先ほど引用させていただいたグラフを再度以下に。
二つの変数の関係について、例えば「数量」と「温度」などについて知りたい場合には
相関係数(correlation)という指標が使われます。
エクセルでは(=CORREL)で計算します。
これによって先ほどの分布図にもあるように
「正の相関」や「負の相関」などが見えて来ます。
相関係数(r)は-1から+1までの範囲に収まります。
rが1に近いほど「正の相関」が強く、-1に近いほど「負の相関」が強くなります。
また、以下のグラフにもありますように、積がプラスになる場所とマイナスになる場所が出て来ます。それらを足し合わせたものから、足し合わせた数(n)で割った統計量を共分散と呼ぶそうです!
共分散(covariance)は偏差の積(上の四角の面積は偏差の積です)をnで割って平均を出したものです!共分散(covariance)はエクセルでは
(=COVARIANCE.P)で計算出来るそうです。
相関もエクセルのデータ分析ツールにあるので、それで一気に計算してくれます。
「データ」→「データ分析」→「相関」→データ選択して→結果
また授業では「自己相関」というのも学びました。昨年と今年の比較をデータを1年ずつずらして測定することで求められます。
さらには「偏相関係数」というのもありました。
授業では郵便ポストの数と交通事故数と人口との相関を調べ人口によってポスト数や交通事故数が決まるんやな!というようなことがわかってくる時の計算方法などを学びました。