見出し画像

社会調査における欠損値

生涯学習に関する地方自治体(市)の調査について調べているのですが,このごろ特に「欠損値」が気になっています。たとえば,「この1年間に生涯学習をしましたか」のような問に対する「無回答」などです。これをどう扱えばいいのでしょうか。

統計学における欠損値研究

統計学では,欠損値をどう扱うかについて,それだけをテーマに本が出版されるなど,研究が進んでいます。わたしの調査のように,すでに欠損値として集計されたものをどう解釈するか,というような視点ではなく,集めたかったデータに何らかの事情で欠損が生じてしまったのをどうするか,という視点からの研究です。サンプルそのものを削除するのは問題も多いので,さまざまな統計的方法によって欠損値の代入を試みたり,欠損値がある状態のままで,その他のデータを有効活用して推定を行ったり,いろいろな方法があるようです。

欠損値はどのように表れているか

ただし,この記事では,上に引用したような方法について議論するつもりはありません。わたしが収集しているデータはすでに集計されたものであり,個票を手に入れて分析し直すことが目的ではなく,集計データの集合から発見できることについて議論していきたいからです。

ここでは,ある市の具体的な調査報告を例に,欠損値の現れ方について考えてみます。以下「A市調査」とします。A市が行っている調査には,次のような質問項目が含まれています。以下,この質問を「生涯学習質問」とします。

あなたは,日頃から,読書,映画,音楽,スポーツや趣味など,何か学ぶことに取り組んでいますか。

いちおうお断りしておくと,A市の調査について,「批判」したり文句を言ったりしたいのではありません。後から述べることからわかると思いますが,かなり面白い問題をわたしは読み取っています。ですから,基本的には「公開してくださってありがとうございます!」という気持ちなのです。

これに対して,回答者は「ほぼ毎日」「月に数回」「全く行っていない」などの選択肢から1つを回答するように指示されています。結果はこのようになっています。(この調査は2020年5月実施,N=1,256)

画像1

私の調査では,このような質問はLK型に分類しています。そして,肯定的な選択肢である「ほぼ毎日」「週に1回」「月に数回」の割合の合計を,生涯学習の参加率として記録しています。上の集計では,
  24.1+16.3+18.6=59.0%
となります。欠損値のないきれいなデータです。
そう見えますね。
ところが,です。
性別,年代別の集計を見てみると,そうではないようにも見えます。

画像2

画像3

表の右側の余白に人数が示されています。性別,年代ごとの回答人数だろうと推測されます。ところが,この数字は,調査報告の冒頭に示されている属性ごとの人数集計と食い違っています。

画像4

画像5

たとえば男性回答者は539人のはずですが,生涯学習質問の性別集計表では517人,女性は708人ではなく669人です。年代別でも(20歳代以外では)同様に差があります。この差は何なのでしょうか。
常識的に考えれば,生涯学習質問に対して「無回答」であった人数と考えられます。

調査報告書の冒頭に,調査の目的や方法についての解説がありますが,「その他」の項に次の説明があります。

「2.集計結果」については、各設問ごとに回答が不明なものを除いた実回答数を分母とした構成比としています。

したがって,性別,年代別の集計表では,右端に記された人数が,「無回答などを除いた回答人数」であり,これを分母として算出した割合が報告されているとわかります。ここまでは納得します。
わたしは,「無回答」なども一つの態度表明と考えて集計したいと考えているので,報告されている比率と回答者数を用いて,無回答者を含めたときの割合を再計算して集計しています。すでに四捨五入されている比率を再計算しますから,誤差が少しだけ大きくなるのは仕方がありません。

問題1:全体の無回答は何人いるのか

さて,問題はここからです。

問題1:最初に引用した,回答者全体での集計では,無回答は何人いたのか。

繰り返しますと,そんな情報は必要ない,無回答を除外して比率を出せばいいのだ,という意見もあるでしょう。わかります。しかし,私はそういう態度をとっていないのです。回答しない,という態度も,ひとつの回答であると考えて集計したいのです。だから問題にしています。

答えは,わからない,です。
わかりません。だって,示されていないのですから。
でも悔しいので,何人が無回答なのかを調べようとしてみました。次の表です。

画像6

(a)列は,調査方法の説明で示されている属性ごとの人数です。
(b)列は,「~生涯学習に取り組んでいますか」の質問に対する回答の,性別,年代別集計に示されている人数です。
(a-b)列はその差です。
緑網掛けの数値を合計した,61(G1)は,性別を答えていますが,生涯学習質問に答えていない人数です。当然,全体の集計にも入っていません。
オレンジの網掛けの数値を合計した,61(A1。たまたまG1と同じ数?)は,年代を答えていますが,生涯学習質問に答えていない人数です。
このほかに,緑アミ白抜きの 9人(G0)は性別を答えていないので性別の集計には含まれていません
オレンジ白抜きの 5人(A0)は年代を答えていないので年代別集計には含まれていません
しかし,この9人と5人に同じ人が含まれるかどうか,そして彼らが生涯学習質問に答えているかどうかはわからないので,全体の集計に含まれているかどうかはわかりません。さらに,G1(性別回答なし)とA1(年代回答なし)が,たまたま同じ人数になっていますが,この61人が同一の61人であるかどうかもわかりません。

というわけで,最初に「欠損値のないきれいなデータ」に見えた円グラフでは,最低でも61人,多く見積もれば120人以上の無回答者が省かれているわけです。
そして,この問題(だとわたしが思っている問題)は,全体の集計の中に,「無回答〇%」が含まれていれば,ほとんど解決する問題なのです。私は何も,無回答者の性別や年代まで詳しく知りたいわけではありません。全体集計の中に無回答者が記されていないので,それを知ろうとして,性別の集計と年代別の集計をこねくり回してしまったのです。

みっともなかったですかね。

問題2:高齢世代ほど無回答が多いのはなぜか

ところで,このような「こねくり回し」をしているうちに気づいたことがあります。問題1で示した色付きの表をもう一度見てください。オレンジの網掛け部分に年代ごとの「無回答」人数が示されています。そこだけ再掲します。

画像7

このデータからは,明らかに,「高齢世代ほど無回答が多い」という傾向が読み取れます。これは「たまたま」なのでしょうか

それを調べるために,A市の他の年度の調査で同じことをしてみました。幸い(?),A市ではほぼ毎年,同様の調査を行い,同様の質問が含まれ,同様の分析がなされています。

画像8

さきほどの表に,同じ方法で計算したデータを付け加えたのが上の表です。右にいくほど,調査の年度が古くなります。「たまたま」ではないことは明らかでしょう。あくまでも生涯学習質問に関してだけですが,明らかに,高齢世代(60代,70代以上)で,無回答者は多くなっています

なぜなのでしょうか?

以下に書くことはすべて仮説です。実証されたものではありませんのでご注意ください。

まず,「高齢者であること」そのものが,その理由の1つとして考えられます。高齢になると,病気がちの人も増えるから回答できないことがあるのだ,高齢になると集中力が続かないから途中でやめてしまうのだ,などでしょうか。いずれも,高齢であることが,健康状態や認知能力など他の要因に影響して,そのことが回答行動に影響すると考えられます。理由付けによってはステレオタイプ的,あるいは差別的な言説につながりかねない感じがあります。

つぎに,質問紙調査の形式そのものがその理由の1つとして考えられます。このA市の調査は,回答者属性も含めて61問で構成されています。高齢者にとって,かなり多くの分量の質問に答えるのは,体力的,精神的に負荷の高い作業になる可能性があります。ですから,意図せず質問を読み飛ばしてしまう,意図せず回答を書きもらしてしまう,といったことも発生しやすくなると考えられます。

余談ですが,こうした自治体のアンケートに対して,自由意見の記述の中に「税金の無駄遣い」「質問が多すぎる」などの意見がしばしばみられます。「迷惑」という意見さえあります。アンケート調査そのものに対しても否定的な態度の人々は一定数いると思われます。高齢者ほど否定的な態度の人が多いのかもしれませんし,高齢者ほど実際の回答行動にそうした態度が現れやすいのかもしれません。

さいごに,「生涯学習についての質問であること」がその理由の1つとして考えられます。高齢者にとって生涯学習が身近なものでない場合,「この質問は自分に関係ない質問だ」と解釈する可能性があります。また,生涯学習についての質問に「やっていない」と否定的に回答することが憚られる,という可能性もあります。あるいは,生涯学習について質問されているけど,質問の意味がよくわからない,あるいは,どの選択肢を選んだらいいかよくわからない,といった理由で無回答とすることもあるかもしれません。

どうでしょうか。ここまでくると,生涯学習質問に対する無回答は,少なくとも MCAR ではなく,少なくとも MAR であり,もしかしたら MNAR かもしれない,と思えてきますね。

というわけで,A市の調査からは,かなり重要な(と思える)欠損値についての問題が見つかりました。もし,3つ目の仮説,つまり「生涯学習についての質問であること」が高齢者の無回答行動に影響しているとすれば,それはそのまま,高齢者の「生涯学習」に対する態度を反映していると見ることもできます。ただし,他の質問でも同様の傾向がみられるならば,そのような解釈は適当ではありません。他の質問についても同様の検討をするのは少々骨が折れるのですが,やってみたほうが面白いかもしれません。

ん?

自分で自分の首を絞めている気がするのだが・・・


タイトル画像はいつものサイトから,Photo by Vlad Sargu。検索語は senior citizons でしたよ。