(5):2つの変数の関係を表す指標たち
シミュレーションしてみましょう
理屈はともかく、Excelでシミュレーションして、それぞれの指標の振舞いを観察してみましょう。まずは、質的変数どうしの関連指標から。
カイ二乗値とクラメールのVを計算してみる
図に示したような簡単なクロス表で、カイ二乗値とクラメールのVを計算してみます。
出身地と麺類の好みを10人に聞いた
どこかで聞いたような設定ですね。
いちおう説明すると、黄色い背景のセルが観測値で、10人に「どこ出身か」(A=関東、B=関西)、「うどん派かそば派か」(X=うどん、Y=そば)を聞いた、みたいに理解してください。「関東(A)」で「うどん派(X)」は3人(全体の30%)ですね。
グレーの背景のセルは期待値です。
![](https://assets.st-note.com/img/1694166458308-LMEteV0dGq.png)
chi2.test:カイ二乗検定のp値。p=0.197で、有意ではありません。
chi2.val:カイ二乗値。
cramer_v:カイ二乗値から計算されたクラメールのV。
人数を単純に5倍してみると・・・
![](https://assets.st-note.com/img/1694167009998-rRyCrCkw1D.png)
chi2.test:p値はうんと小さくなって有意。出身地と麺類の好みには関係がありそうだ、と結論できます。さっきはだめだったのに。
chi2.val:カイ二乗値は、(電卓では丸め誤差が出ますが)ちゃんと5倍になっています。$${1.667\times5=8.333}$$です。
cramer_v:まったく同じです。
人数を単純に5倍しただけで有意に変わっていいのか?
人数を単純に5倍しただけなので、全体の傾向は何も変わっていないはずです。最初、「関東(A)」で「うどん派(X)」は「全体の30%」(10人中3人)でしたが、5倍してもやはり、「全体の30%」(50人中15人)です。
カイ二乗値は、全体の人数(=サンプルサイズ)に影響されて大きくなってしまいますが(それにともなってp値も小さくなる)、クラメールのVは、サンプルサイズには影響されません。
共分散と相関係数を計算してみる
次に量的変数同士の関係。なんでもいいので2つの量的変数XとYがあると思ってください。
![](https://assets.st-note.com/img/1694167827674-G2EZEIY0YQ.png)
cov(共分散):上の例では0.6です。
cor(相関係数):上の例では0.3です。
データを全部10倍してみた
どうして10倍するん? という感じもしますが、「cmで測ったけどやっぱりmmで測ることにした」みたいな場面でしょうか。「2cm」じゃなくて「20mm」に直したということにしておきます。指標はどうなるでしょうか。
![](https://assets.st-note.com/img/1694168146613-WJfD7DucvC.png)
cov(共分散):0.6が60になりました。なんと100倍です。
cor(相関係数):全く同じで、0.3です。
もともとの値を単純に10倍しただけなので、XとYの関係が変わったわけではありません。散布図を見てもそのことがよくわかります。けれど、共分散の方は、たとえば測定単位の変更などを行うと、それに影響された数値が変わってしまいます。相関係数は、そのような影響は受けません。
シミュレーションしてみよう
こういう、意味のよく似た指標とか、違いを説明されても「本当か?」と思うことがありますね。シミュレーションができるなら、やってみるといいです。実際にExcelに数式を打ち込むことで、「何を使ってどう計算しているんだっけ?」ということの理解も深まります。そういう作業って、自分でとったデータを分析するときに必ず役立ちますからね。
シミュレーションをしたファイルです。自己責任でご自由にお使いください。