Excel分析対策 #01 第1-4章
エクセル分析スペシャリストを勉強していて引っかかったこと・実務でデータ解析などをする際に気を付けるべき事を復習し始めることにしました。
全4~5回ほどになる予定です。
1、分析データの理解
統計の目的とは、数値データの集団を対象としてデータの傾向・特徴などを調べ何らかの有益な情報を引き出すことです。記述統計は多くの情報を簡潔にまとめることができるため、意思決定を行う上で役立ちます。例えば顧客のアンケート結果を統計を用いて分析することで顧客の満足度等を調査することができます。
全体の平均値を求めたり、数値を偏差値に換算して比較することが情報を引き出すことに相当します。通常、Excelを使った分析では分析対象を行方向、変数を列方向に収めてデータを表現します。
データ分析する際に当たっては、基礎統計量を求める他グラフで量・度数を視覚化する2つの方法があります。基礎統計量はデータ→データ分析、グラフは挿入→グラフのヘッダーから作成します。
2、度数表とグラフ(ヒストグラム・累積相対度数)
変数が質的データである場合は、出現数をデータ区間ごとに記録する度数分布表を作成します。Excelで度数分布表を作成するには、データ→データ分析→ヒストグラムを用います。
度数分布表が作成出来たら、Excelの棒グラフを調整することでヒストグラムにすることができます。また、度数分布表は累積相対度数をプロットして折れ線グラフにすることもできます。累積相対度数の折れ線グラフはローレンツ曲線と呼ばれ、偏り・不均等度を表すジニ係数を算出するのに用いられます。
3、分散・標準偏差と標準化・偏差値
基礎統計量の内には、データのばらつきを表す分散・標準偏差があります。
データのばらつきは、実務ではリスク評価や外れ値の発見に役立ちます。
平均を求めるにはAverage()、分散はVar.p()、標準偏差はStdev.p()を使います。データが標本データの場合は、分散を求めるには不偏分散というデータ個数の分を補正した値を使う必要があります。この場合不偏分散を求めるにはVar.s()、不偏標準偏差はStdev.s()と使います。
また、異なるデータのばらつきを比較するには標準化が有効です。
標準化すると、データの平均は0・分散と標準偏差は1になります。
Excelで標準化をするにはStandardize()を使います。
また、データの平均を50・標準偏差を10とする偏差値化も有効です。
4、度数・割合とクロス集計表
データ化したい変数が2つとも質的変数である場合は、クロス集計表にして度数・割合を比較するのが有効です。例えば、男女の年齢別人口構成の様なデータは1つの特徴量は性別・もう1つの特徴量は年齢とするとクロス集計表にできます。
Excelでクロス集計表を作成するには、挿入→ピボットテーブル(おすすめピボットテーブルも可)を使えます。クロス集計表からは集計・比率の積み上げ横棒グラフを作成するのが有効です。