データを測る4つのものさし(4)名義ものさし
名義ものさし
一応、ものさしの仲間に入っているが、もはや目盛りはほとんど必要ない。ただ単に、「「あれ」と「これ」が区別できればよい」というものさしなので、それこそロープのごときものでよい。
そして、区別した結果として、「あれ」には1を(あるいはAを)、「これ」には0を(あるいはBを)、というように、ごく恣意的に数値または記号を割り当てる。ただ識別の数値または記号である。したがって、お行儀よく「1と2」や「AとB」でもよいし、わざとらしく「245と-9812」でも構わない。当然のことながら、これらの数値を用いて計算してはいけない。
わざとらしい数値を用いないのは、おそらく、「どうしてそのような数値をあえて用いるのか」という余分なことを考えたくないからだろう。尋ねられたら何らかの答えをしなくてはならない。面倒である。
何しろ、性別を「男性=1、女性=2」とした瞬間に、なぜ男性が1なのか、「女性=1、男性=2」では何かまずいのか、などと、ついセンシティブに考えてしまいかねない時代である。
上記の例では、「あれ」と「これ」を分ける、つまり2つのカテゴリに分ける場合を取り上げたが、カテゴリはいくつだってかまわない。身近なところでは、放送大学の学生種があって、教養学部だけでも「全科履修生」「選科履修生」「科目履修生」とあって、全科履修生には所属コース(全6コース)がある。まず教養学部学生を3カテゴリに分け、そのうちの1つのカテゴリをさらに6つのカテゴリに分けることができる。分けた結果を、分析に有効に活用できるなら、の話だが。
いま、うっかり書いてしまったが、「分けた結果を、分析に有効に活用できる」という見通しをもつことは大事だ。
世の中には、本当にどうでもいいアンケートがたくさんあって、たいてい、回答者の年齢・性別内訳が書かれ、ご丁寧に円グラフが描かれていたりする。ただし、年齢(多くの場合は年齢階級)別や性別に分析することで、何か興味深い結果が得られた調査ばかりではない。
どのような年齢性別構成から得られたデータなのか、偏りはないか、ということを確認するのも大事かもしれないが、それだけのために、わざわざ円グラフを作る必要はないだろう。
4つの尺度
ここまで、4つの尺度を順に取り上げてみた。多くの教科書では、4つの尺度を、名義、順序、間隔、比例の順に書かれている。が、次の教科書では、比例、間隔、順序、名義の順で説明がされている。
初めてこの本を読んだとき、説明の順番が逆転していることに、ちょっと驚いた。どうしてこの順番なのかなと考えた。
大した考えではないことを承知の上で、ちょっと妄想すると、
(1)測定した、あるいは測定したいデータは、もともと比例尺度でありたい。
(2)なぜなら、比例尺度は、順序尺度や名義尺度に変換することができるが、その逆はできないから。
というところだろう。
たとえば何かの反応時間を計測する。秒単位で計測するが、せいぜい0.1秒くらいの精度しかないだろう。できればこれを、このまま分析に使いたい。
が、もう少し単純化した分析をしたいときに、反応時間が「かなり短い」「やや短い」「やや長い」「かなり長い」とカテゴリ分けするかもしれない。反応時間が「かなり長い」グループだけ、ある疾患が関連するかもしれないし、反応時間が「かなり短い」グループだけ、別の能力との関連があるかもしれない。そうすると、「かなり長い」と「それ以外」のように、あるいは「平均的」と「平均より明らかに長いあるいは短い」のように、名義尺度に下げて分析することで、話は単純になる。(いや、単純なほうがいいという話をしたいのではない。分析結果をプレゼンするときなどには、単純な話のほうが結論の方向性を示しやすいと思うからだ。)
この逆ができないことは、説明の必要がないだろう。
年齢を階級別に区切ってたずねられたときに、たとえば、ちょうど40歳の他場日をむかえたばかりだったとしよう。「なんてことだ。この前までなら「30代」と答えられたのに、「40代」と答えなくてはならない。ひどい」とか思ったことはないだろうか。一方で、「よかった、まだ50歳の誕生日まで1週間ある。まだ40代だぞ」と思っている人もいるだろう。
「40代」という年齢カテゴリで分けてしまうと、40歳になったばかりの人と、50歳になる一歩手前の人を同じカテゴリに押し込めてしまう。だからといって誰かに損害を与えているわけではないだろうが、40歳と49歳のちがいを無視し、39歳と40歳のちがいを強調する理由もどこにもない。
このあたりのことは、同じデータを、ものさしを変えて見てみることで、より実感をともなって理解できると思う。