いよいよ標本調査だ!
Cover Photo by Wim van 't Einde on Unsplash
中学校3年生では、標本調査が扱われます。これまで学習してきたデータの可視化、代表値、そして確率の学習がここで統合されるというわけです。
中学3年生
標本調査の意味と必要性
最初に書かれていることは、標本調査の意味と必要性を理解する、ということです。これまでは(特に小学校では)、典型的には「クラスの全員に聞きました」のような形での、ごく小規模な集団に対する全数調査について、そのデータを整理する、という形をとっていました。
これに対して、中学校からは、より社会的なデータを扱うようになり、市民全体では? 国民全体では? あるいは製造された製品全体では? のような、かなり大規模な(あるいは大きさが無限の)母集団について、どうやって調べたらいいのだろう、という問題意識につなげようとしています。
大きさが無限の母集団、というのは、たとえば「ある工場で生産される缶詰の重さ」とか、「ある工場で作られる食品の栄養成分」とかを調べる時に、たまたまある一日に生産されたものを母集団とするのではなく、過去に生産されたものや、これから生産するものも含めて母集団と考えている場合などがそれにあたります。
これらすべてについて調べることは不可能ですから、小規模な「標本」を取り出して調査し、その結果をもとに母集団について推測しよう、というのが標本調査の基本的な考え方です。
このような考え方に対して、「わずかな標本から全体の何がわかるのか」という疑問をもつことがあります。こうした疑問を解消するための方法が、項目イ(イ)にある「無作為に」標本を抽出するという方法です。
よくある例えとして、大きな鍋でスープを煮ていて、うまく味がついているかを確かめたいときに、「よくかき混ぜておいて、スプーンで1杯すくって飲んでみる」という方法がとられます。割と一般的な味見の方法ですね。
このとき「よくかき混ぜて」が重要です。かき混ぜないと、たまたま味の薄いところ(あるいは濃いところ)をスプーンですくってしまう可能性があります。たまたま味が薄いところを味見してしまい、あわてて塩を足す、というのは賢い方法ではないですね。
「よくかき混ぜて、スプーンで1杯すくう」が、無作為に標本を選んで調査する、という行為のメタファです。味見をするのに、鍋ごと飲み干す必要はないのです。
もちろん、標本として取り出すのは、母集団のほんの一部です。そこには当然、誤差(標本誤差)が含まれます。どのくらい誤差があるのかは、数学的に導くことができます。ただし、中学校では誤差の評価までは扱いません。
標本調査をやってみよう!
項目イ(イ)では、簡単な場合について標本調査をしてみることが掲げられています。といっても、社会調査などを中学生が実施することは実際には困難でしょう。「解説」に記載されている例は次のようなものです。
なるほど。考えましたね。英和辞典であれば図書館の蔵書も使えるでしょうし(あるいは、中学生なら全員持っているでしょう)、乱数の発生がPCで自分でできるなら、個人で活動できる。全員の結果を比較したり(同じ辞典を持っている生徒同士で結果を比較したり)という活動もできる。
この場合、何が母集団で、何がサンプルに該当するか、というのも、用語の意味の確認として重要ですね。
また、「解説」では、次のことにも触れています。
「最初の10ページ」など無作為抽出出ない場合と比較する
抽出ページ数を多くして、データのばらつきが変わるか調べる。
別の例では、睡眠時間の調査が取り上げられています。
この例では、どうやって標本となる生徒を抽出するかは示されていません。単純に無作為抽出をしようと思うと、それなりに大変でしょうから、あるクラスの生徒を、全校生徒(あるいは全国の中学生)という母集団の無作為サンプルであると仮定して調査をすることになるかもしれません。
「このクラスだけ睡眠時間が長い(短い)生徒が集まったとはいえないから、わりといい予測になるのではないか」とか「進学率が高い地域とそうでない地域では違うのではないか」「3年生は受験を控えて短くなっているかもしれない」など、いろいろなことが考えられます。そういう意見が出ると話し合いが楽しそうです。では、もっと妥当な調査をするにはどうすればよいのか、どうやって標本の生徒を選ぶとよいか、進学率が高い地域かどうかどうやって推定するのか、3年生の睡眠時間が短いという予想なら学年も調べる必要がある、だったら地域も調べて比較したらどうだろう、、、と、このあたりまでは確実に進みそうですね。楽しそう。
上記の例でもう一つ面白いと思ったのは、①で「「一日の睡眠時間」の意味を明らかにして」と書いてあるところです。これは大事ですね。つまり、調べたい概念を明確にするということです。平均的な睡眠時間を答えてもらうにしても、季節や学校行事との関連で違ってくる可能性もありますから、そこをどう説明するかも大事でしょう。
そして、答え方も検討する必要があります。「〇時間」あるいは「〇時間〇分」と記述してもらうのか、「6時間、6時間半、7時間・・・」のように選択肢を設けるのか、はたまた、就寝時間と起床時間を答えてもらって分析者が計算するのか。
はあ。考え出すときりがないですね。
無作為抽出と確率の関係
無作為抽出と確率の学習はどうつながるのでしょう。
母集団を構成する人や物が、すべて等確率で選ばれる、特定の誰かが(どれか)が選ばれる確率は「同程度に確からしい」ときに、乱数を使って「誰か(どれか)」を特定することで、選ばれた標本には偏りがなくなるだろう、と考えらます。
当然ですが、ここで用いる「乱数」も、ある範囲の値から特定の値が選ばれる確率が「同程度に確からしい」といえる方法ですね。乱数表を用いるのが正式なやり方ですが、PCで疑似乱数を発生させるのが簡便です。
詳しい方にお聞きしたことがありますが、乱数表による乱数と、PCによる疑似乱数を、人が見分けることはほぼ不可能だそうです。
それにしても、中学3年生でここまで学習することになるんですねえ。中学生がんばれ! 中学校の先生もがんばれ! そして、日本からどうでもいいアンケート調査を駆逐してくれ!
演習問題
「解説」から引用した、英和辞典の単語数調査を、実際にやってみてください。英和辞典以外にも、国語辞典、和英辞典など、収録語数がわかる辞典類なら、同様の活動ができると思います。