データ解析はなぜ「質的変数か量的変数か」にこだわるのか
はじめに
データ解析や統計学で一番最初に習うのは,「質的変数」「量的変数」という変数の区別です。これは一般的な感覚に寄り添っていて,退屈に感じる方もいると思います。なぜこの変数の区別を最初に習うのか。それは,多変量解析の考え方を先取りすることで理解できます。
解析手法とデータの種類
この世にデータは無数にありますが,そのデータの種類は主に4つに分類可能です。
①結果となるデータ:量的 × 原因となるデータ:量的
②結果となるデータ:量的 × 原因となるデータ:質的
③結果となるデータ:質的 × 原因となるデータ:量的
④結果となるデータ:質的 × 原因となるデータ:質的
専門的には,原因となるデータのことを説明変数,結果となるデータを被説明変数と呼びます。量的データとは端的に言えば数値,質的データとは量的データでないものです。
質的データの例:満足度のアンケ結果,所属クラス,性別,電話番号
単回帰分析と量的データ(よみとばしてok)
単回帰分析という手法は聞いたことがあるでしょうか。2種類のデータを直線で解釈する解析手法です。ここから簡単に単回帰分析の手法を紹介しますが,本筋ではないのでお急ぎの方は飛ばしてください。
単回帰分析の例:身長と体重の関係
単回帰分析の手法を簡単に説明します。
1.単位を確認する
2.最小二乗法により直線の傾きと切片を求める
3.どのくらいの当てはまりかを評価する
以上3点です。ひとつひとつ見ていきましょう。
1.単位を確認する
身長と体重の例を使います。身長はmでも㎝でも表現できます。回帰分析でどちらを使っても解釈は可能です。最終的に直線をもとめ,その係数(傾き)と切片について考えるので,その際に単位を意識すればひとまず大丈夫です。
2.最小二乗法により直線の傾きと切片を求める
最小二乗法とは,データに対して直線を引いたとき,そのずれを最も小さくするための手法です。数式に関しては省略します。というのも,Excelにデータを入力すればこの煩雑な計算はコンピュータが行ってくれるからです。
統計学の手法を数式から解釈することはとても大切なのですが,難しい数 式に挫折するよりは,ある程度「こんなもんか」という理解で進んでしまって大丈夫だと私は思います。(数式の解釈は実際にデータ解析をするなかで学んでいくほうが楽しいとも思います。)
最小二乗法により単回帰分析が終了したものとします。
出てくる数式は
y= α + βx
……(結果) = 切片 + (係数) × (原因)
のような形になります。
例:170㎝,63kgの人は170cm=α+(63kg×β)
1kg増えたらβ㎝身長が増えるという解釈ができる(単位に注意)。
3.どのくらいの当てはまりかを評価する
この回帰直線がどのくらいデータに当てはまっているかを確認します。
ここで決定係数という考え方を使います。
決定係数もExcelをはじめとしたさまざまなソフトで簡単に求めることができます。
決定係数は0から1の値をとり,1に近いほど良いモデルであるとされます。
分子が回帰モデルで説明できた部分,分母が観測値の動きであると簡単に知っておいてください。
決定係数:R^2=(回帰モデルで説明できた部分)/(観測値の動き)
単回帰分析を行うとき,データの種類は何?
単回帰分析はいくつかの数式を用いて ”直線” からデータを解釈するものでした。中学・高校数学で直線の式を扱った経験はありますね。この時,yやxに入る値は必ず数値だったと思います。
そうです。単回帰分析は結果となるデータが量的データである場合しか扱うことができないのです。
冒頭で紹介した
①結果となるデータ:量的 × 原因となるデータ:量的
②結果となるデータ:量的 × 原因となるデータ:質的
に当たります。
ーーーー
②を簡単にイメージしてみましょう。
平均購買金額を性別ごとに分析したいとします。
平均購買金額(結果)は量的データ,性別(原因)は質的データです。
結果が質的データである場合,単純に直線を引いてしまうと解釈が難しくなります。
仮に,男性の方が女性より平均購買金額が高いとします。
この時,正の傾きの直線は何を意味しているでしょうか。
男性と女性以外の変数がないため,「男性の平均顧客満足度と女性の平均顧客満足度」の2点を結ぶ線が回帰直線に当たります。
ーーーー
単回帰分析は量的データのみ扱うことができる、というのがこれまでの説明でなんとなくわかりましたでしょうか。一言にまとめると「計算に意味がない」質的データを「計算」することに意味はないという考え方になります。
解析手法とデータの種類の対応
長くなったので最後に,4種類のデータに対応する主な解析手法を掲載します。データ解析の参考になりましたら幸いです。
①結果となるデータ:量的 × 原因となるデータ:量的
→単回帰分析
②結果となるデータ:量的 × 原因となるデータ:質的
→t検定,単回帰分析
③結果となるデータ:質的 × 原因となるデータ:量的
→ロジスティック回帰分析
④結果となるデータ:質的 × 原因となるデータ:質的
→カイ二乗検定,ロジスティック回帰分析
いずれカイ二乗検定,ロジスティック回帰分析にも触れたいなと思っています。
最後まで読んでいただきありがとうございました!