データを測る4つのものさし(1)比例ものさし
4つの尺度水準
統計学の教科書に必ず出てくるのは、次のような4つの尺度水準である。
名義尺度(放送大学の学生種、出身地など)
順序尺度(テストの評定(A,B,C…)、競争の順位(1位、2位、…)など)
間隔尺度(摂氏温度、偏差値など)
比例尺度(人の身長、野菜の重量など)
「尺度」という言葉は、日常的には聞きなれない言葉なのだが、実は複数の意味に使われていて、ちょっと混乱するかもしれない。広辞苑によると、
上述の尺度水準では①の意味で尺度という言葉が使われていると考えて良い。一方、心理学で、たとえば「自尊心の測定尺度」といったときには、②の意味も含まれていると見て良いと思う。なかなかややこしい。
ものさしを作ってみよう
4つの尺度水準が、要するに「ものさし」であるというなら、ものさしの形に視覚化できるのではないか?
ということで、比例尺度を「比例ものさし」として視覚化してみる。
(「比率尺度」とか「比尺度」とかの用語も同じ意味で使われている。)
男女の身長を比較したときに、乱数で発生させた架空データがある。それを、比例ものさしのうえに置いてみよう。こんな風になる。
どうしてわざわざ「0~140」あたりを表示しているのか、見にくいではないか、あるいは、無駄ではないか、という気がする。
一見無駄なことをしている理由は、この「比例ものさし」が、明確な「0」点を持っていることを強調したいからである。明確な0をもつことが、比例尺度の代表的な特徴である。
長さ、あるいは重さ、広さなどを測定するにあたり、負の数は登場しない。誰かの身長が「マイナス150㎝」だとか、リンゴの重さが「マイナス200g」だとか、部屋の広さが「マイナス25㎡」とか、そういうことはあり得ない。「0㎝」や「0g」や「0㎡」は、それぞれ、長さや重さや広さが「まったくない」ことを意味する。
ここで、たとえば野菜が乾燥して重さが減ったことを「マイナス5g」のように言うではないか、重さにもマイナスがあるではないか。長さや広さだって(それらしい場面を想定してくださいね)そういうことがあるではないか。
そういう反論もあるだろう。が、これは違う。
ここで指摘されている「マイナス5g」は、「重さ」ではなく「重さの変化量」である。「変化量」が「0g」であるとき、それは「変化がまったくない」のである。「変化量」の「プラス」や「マイナス」は変化の方向を示している。変化量を測定する(というより計算する)ときには、負の目盛りをもつ比例尺度が用いられると考えればよい。
無限に細かく測定できる
比例尺度のもう一つの特徴は、無限に細かく測定できることである。上のものさしの図から、使用されている部分のみを拡大してみよう。
値が密集している部分をさらに拡大すると、
さらに、
身長を測定するとき、㎝で測るのなら小数第1位まで(つまりミリメートル単位まで)くらいに留めるのが普通だろう。あなたの身長はと尋ねられて、「172.35624㎝です」と答える人はいない。普段の会話の中では、「170くらいです」、せいぜい「172です」だろう。
比例尺度はどれだけでも細かく目盛りを分けて、小数以下無限桁まで測定することが、理論的には可能である。そこまで細かい数字に、ほとんど意味がないので、やっていないだけである。
尺度の説明に続いて、「とびとびの値(具体的には自然数など)しかとらないものは離散変数である」みたいな説明が付け加えられる教科書も多い。だからといって、「身長はミリメートル単位でしか測らない、とびとびの値だから離散変数だ!」と言い張るのは意味がない。離散変数とか、連続変数とかの区別は、要するに分布の期待値などを計算するときに、シグマをつかうか積分をつかうかを区別したいから説明しているのだろうと、私は思っている。