(1):単純集計は統計の第一歩でしょ。

分析の第一歩としての単純集計

いろんな教科書に書いてあると思うのでしつこく繰り返さないけど、実際にデータを収集したら、変数ごとに単純集計して、度数分布表やヒストグラムを作るのはデータ分析の基本だね。

どうしてかというと、こういう作業の中で、外れ値が見つかったり、明らかに異常な値が見つかったり、記入漏れが見つかったりするので、そういうのをどう扱ったらいいかを考えることができるから。もしそういう値がなかったら、安心して次の分析に移れるからね。

ついでに書いておくと、外れ値は単純に除外していいものではない。じゃあどうすればいいかというと、それはデータによる、としか書きようがない。詳しく書くだけの知識がないので書かないけど。

カテゴリ変数に使える代表値

カテゴリ変数(質的変数、この教科書では「離散変数」という用語を使っています)ってなあに、ということをいまさら説明する必要もないだろうけど、いちおう書いておくと、
質問に答える時に、いくつかの選択肢から回答を選んでもらったなら、それはカテゴリ変数
ですね。

例1:「年代」という「順序付け可能な離散変数」

たとえば「年代」(年齢ではなく)が代表例の一つで、「20代以下」「30~40代」「50~60代」「70代以上」みたいな選択肢から1つを選んで答えたりする。
このとき、集まったデータが、どういうふうにエクセルに並んでいるかをイメージしてみよう。上に例示した「年代」の質問だと、1人目が「50~60代」、2人目が「30~40代」、3人目も「30~40代」、4人目が「70代以上」、5人目が「20代以下」、みたいに並ぶことになる。で、これは、「年齢が若い順」、または「年齢が高い順」に並べることができる。もちろん、「20代以下」と答えた人の中では順序を決めることはできないけれど、「20代以下」と「30~40代」が途中でまぜこぜになったりはしない。「順番に並べることができる」ということは、「中央値」が決められるということになります。

例2:「出身地」という「順序付け不可能な離散変数」

これが「出身地」だとそうはいきません。「愛知、岐阜、三重、その他」みたいな選択肢から一つを選ぶとして、「その他」を常に最後におくのはいいとしても、どれを最初におくかは難しいですね。いちおう「読み方の五十音順」で並べると上記のようになるのですが、だからといって「愛知が一番**だ」などと主張しているわけではない。そんなことを主張しようものなら、「どうせ岐阜は名古屋の一部だと思ってるんでしょ!」などと、岐阜県民の怒りを買ったりする。いえいえ、岐阜県はいい県ですよ。理由はよく知りませんけど。もちろん三重県だっていい県ですよ。理由を書くのは控えますけど。いやはや、何の話なんだか。

そういえば、「その他」を常に最後に置く、というのは、ちゃんと小学校で習っていることです。上には、最初から「その他」という選択肢があるという状況設定を示しましたが、そうでなくても、調査の結果、度数の少ない選択肢を「その他」にまとめて、度数分布表や棒グラフの「最後に置く」ことがあります。これは、「その他」の度数に関わらず、です。たとえ「その他」の度数が「岐阜」や「三重」の度数より多くても(もちろん「愛知」より多くても、と、念のために書き足しておこう)、「その他」は最後です。なぜなら、出身地として「その他」と答えるのは、自分の選びたい選択肢(例えば、島根とか、愛媛とか、ルワンダとか、マレーシアとかですね)が示されていないので、仕方なく「その他」を選んでいるのであって、「「その他」という名前の都道府県出身である」わけではないからです。(少なくとも執筆時点で、日本に「その他」という名前の都道府県はない。)

あと、これも小学校で指導する内容ですが、順序付けできないカテゴリ変数は、度数の多い順に度数分布表やグラフに表すのが普通です。順序付けできるカテゴリ変数のときは、普通、順序にしたがって並べます。そのほうが見やすいので。
ところが、Web上に散らばっている「アンケート」なるものの中には、このことが理解されていないものが、あったりなかったり。やれやれ。

順序付け不可能なときのグラフ

「その他」は最後に。小学校で習うよ!
もし「その他県」ご出身の方がいたら失礼!

順序付け可能なときのグラフ

どこに分布の山があるかわかる=中央値がつかみやすい
分布の山がわかりにくい=中央値がつかみにくい