統計学:データのすべて
統計とは
統計は、データを収集、分析、解釈する科学と芸術のこと。
それは私たちの意思決定と政策決定を導き、私たちの見解と信念を形作り、そしてそれは現代の科学と技術の多くを支えている。
私たちが生成するデータの量が増え、テクノロジーによってデータが見えやすくなるにつれて、統計を理解することがますます重要になっている。
データとは何か
統計学では、定性的なデータと定量的データを扱う。
定性的データには2種類ある。
・名義尺度(nominal)
単に分類するために整理番号として数値を割り当てたもの
血液型や男女の性別など
・順序尺度(ordinal)
順序には意味があるがその間隔には意味がない数値を割り当てたもの
スポーツの順位など
定量データの場合は、以下の2種類がある。
・間隔尺度(continuous)
目盛が等間隔になっている
知能指数や客の満足度など
・比例尺度(discrete)
原点(0)の決め方が定まっていて,間隔にも比率にも意味があるもの
身長,体重など
データの種類
簡単に言えば、データは情報に対応している。
データにはさまざまな形やサイズがあり、データをどのように理解して使用するかは、データの種類と関心のあるものによって異なる。
例えば、降雨量に関心がある場合は、mmで定量的かつ連続的に測定するか、なし、軽度、中度、重度の定性的およびに分類および順序尺度で分類できる。
通常、関心のある量または質を記録することで得られるデータに注目する。しかし、データの可能な値が何であるかを事前に知っているかもしれませんが、データを収集するまで、実際の値はわからない。
サイコロを振ると1から6までの数字が出ることがわかっていますが、サイコロを振るまでは何が出るかわからない。
このように量や質を測定したいときに、取り得る値の範囲を確率変数(random variable)、略して変数と呼ぶ。
統計とは何か
統計は、データを分析して結果を解釈する数学の一分野のこと。
・統計の一例
作物を育てたいのなら、収穫量を増やすために肥料を使うべきかどうかを考えたい。そのための方法として、最初はデータを収集する。たとえば、100区画の土地を取得し、これらの土地の50区画で肥料なしで作物を栽培し、他の50区画で肥料を使用して作物を栽培し、そのデータから収集する。これが土地各区画での作物の収穫量の条件。
このデータを収集した次に行うはデータの確認。
つまり、100区画の土地があり、それぞれについて、それぞれに対応する作物の収穫量があり、2つのグループに分ける。
肥料がなかった土地の区画に1つをプロットし、次に肥料があった土地の他の区画にもそれらをプロットする。
もちろん、これらのデータを見ると、肥料が作物の収穫量を増やしたことをすぐに知ることはできない。
これを行うために、統計分析を行う必要がある。正式な統計分析を行うことで、さまざまな量の変動などを確認できるようになり、判断が可能にある。
土地を、10区画、5つの違うレベルに分類する。これらの10のプロットのそれぞれに、さまざまな量の肥料を試す。次に、実験から得たデータをプロットする。このようにプロットし、分析することで、肥料を多く使用するほど作物の収穫量が増えることがわかる。
統計分析を使用することで、実際の関係がどのように、そして何であるかを実際に説明することができる。多かれ少なかれ、このデータを取得して分析することで、より深く理解できることが上の例で見ることができる。それから、さらに調査したい場合は、追加の質問を用意する必要がある。
一般に統計を行う際のプロセスは、PPDACサイクルと呼ばれる。
P(problem、問題)
P(plan、計画)
D(data、データ収集)
A(analysis、分析)
C(conclusion、結論)