見出し画像

いよいよ標本調査だ!

Cover Photo by Wim van 't Einde on Unsplash

中学校3年生では、標本調査が扱われます。これまで学習してきたデータの可視化、代表値、そして確率の学習がここで統合されるというわけです。

中学3年生

(1) 標本調査について,数学的活動を通して,次の事項を身に付ける
 ア:知識及び技能
  (ア)標本調査の必要性と意味を理解すること。
  (イ)コンピュータなどの情報手段を用いるなどして無作為に標本を取り出し,整理すること。
 イ:思考力,判断力,表現力等
  (ア)標本調査の方法や結果を批判的に考察し表現すること。
  (イ)簡単な場合について標本調査を行い,母集団の傾向を推定し判断すること。
〔用語・記号〕
  全数調査

「解説」より

標本調査の意味と必要性

最初に書かれていることは、標本調査の意味と必要性を理解する、ということです。これまでは(特に小学校では)、典型的には「クラスの全員に聞きました」のような形での、ごく小規模な集団に対する全数調査について、そのデータを整理する、という形をとっていました。
これに対して、中学校からは、より社会的なデータを扱うようになり、市民全体では? 国民全体では? あるいは製造された製品全体では? のような、かなり大規模な(あるいは大きさが無限の)母集団について、どうやって調べたらいいのだろう、という問題意識につなげようとしています。
大きさが無限の母集団、というのは、たとえば「ある工場で生産される缶詰の重さ」とか、「ある工場で作られる食品の栄養成分」とかを調べる時に、たまたまある一日に生産されたものを母集団とするのではなく、過去に生産されたものや、これから生産するものも含めて母集団と考えている場合などがそれにあたります。
これらすべてについて調べることは不可能ですから、小規模な「標本」を取り出して調査し、その結果をもとに母集団について推測しよう、というのが標本調査の基本的な考え方です。

このような考え方に対して、「わずかな標本から全体の何がわかるのか」という疑問をもつことがあります。こうした疑問を解消するための方法が、項目イ(イ)にある「無作為に」標本を抽出するという方法です。
よくある例えとして、大きな鍋でスープを煮ていて、うまく味がついているかを確かめたいときに、「よくかき混ぜておいて、スプーンで1杯すくって飲んでみる」という方法がとられます。割と一般的な味見の方法ですね。
このとき「よくかき混ぜて」が重要です。かき混ぜないと、たまたま味の薄いところ(あるいは濃いところ)をスプーンですくってしまう可能性があります。たまたま味が薄いところを味見してしまい、あわてて塩を足す、というのは賢い方法ではないですね。
「よくかき混ぜて、スプーンで1杯すくう」が、無作為に標本を選んで調査する、という行為のメタファです。味見をするのに、鍋ごと飲み干す必要はないのです。

もちろん、標本として取り出すのは、母集団のほんの一部です。そこには当然、誤差(標本誤差)が含まれます。どのくらい誤差があるのかは、数学的に導くことができます。ただし、中学校では誤差の評価までは扱いません。

標本調査をやってみよう!

項目イ(イ)では、簡単な場合について標本調査をしてみることが掲げられています。といっても、社会調査などを中学生が実施することは実際には困難でしょう。「解説」に記載されている例は次のようなものです。

例えば,ある英和辞典に掲載されている見出しの単語の総数を標本調査で推定することを考える。この英和辞典が980 ページであるとすると,乱数さいやコンピュータなどを利用して,001 から980 までの乱数を発生させ,ある程度の数のページを無作為に抽出する。そして,抽出したそれぞれのページに掲載されている単語の数を調べ,その平均値から,この英和辞典に掲載されている見出しの単語の総数を推定する。

「解説」p.156

なるほど。考えましたね。英和辞典であれば図書館の蔵書も使えるでしょうし(あるいは、中学生なら全員持っているでしょう)、乱数の発生がPCで自分でできるなら、個人で活動できる。全員の結果を比較したり(同じ辞典を持っている生徒同士で結果を比較したり)という活動もできる。
この場合、何が母集団で、何がサンプルに該当するか、というのも、用語の意味の確認として重要ですね。
また、「解説」では、次のことにも触れています。

  1. 「最初の10ページ」など無作為抽出出ない場合と比較する

  2. 抽出ページ数を多くして、データのばらつきが変わるか調べる。

別の例では、睡眠時間の調査が取り上げられています。

例えば,「自分の中学校の3年生の全生徒200 人の,一日の睡眠時間は何時間くらいだろうか」について調べる場合,次のような活動が考えられる。
 ①  「一日の睡眠時間」の意味を明らかにして(昨日の睡眠時間か,過去1週間の平均睡眠時間かなど)質問紙を作成する。
 ②  標本となる生徒を抽出し,調査を実施する。
 ③  調査の結果を整理する。
 ④  調査結果を基にして,全生徒の睡眠時間を予測して説明する。

「解説」p.157

この例では、どうやって標本となる生徒を抽出するかは示されていません。単純に無作為抽出をしようと思うと、それなりに大変でしょうから、あるクラスの生徒を、全校生徒(あるいは全国の中学生)という母集団の無作為サンプルであると仮定して調査をすることになるかもしれません。
「このクラスだけ睡眠時間が長い(短い)生徒が集まったとはいえないから、わりといい予測になるのではないか」とか「進学率が高い地域とそうでない地域では違うのではないか」「3年生は受験を控えて短くなっているかもしれない」など、いろいろなことが考えられます。そういう意見が出ると話し合いが楽しそうです。では、もっと妥当な調査をするにはどうすればよいのか、どうやって標本の生徒を選ぶとよいか、進学率が高い地域かどうかどうやって推定するのか、3年生の睡眠時間が短いという予想なら学年も調べる必要がある、だったら地域も調べて比較したらどうだろう、、、と、このあたりまでは確実に進みそうですね。楽しそう。

上記の例でもう一つ面白いと思ったのは、①で「「一日の睡眠時間」の意味を明らかにして」と書いてあるところです。これは大事ですね。つまり、調べたい概念を明確にするということです。平均的な睡眠時間を答えてもらうにしても、季節や学校行事との関連で違ってくる可能性もありますから、そこをどう説明するかも大事でしょう。
そして、答え方も検討する必要があります。「〇時間」あるいは「〇時間〇分」と記述してもらうのか、「6時間、6時間半、7時間・・・」のように選択肢を設けるのか、はたまた、就寝時間と起床時間を答えてもらって分析者が計算するのか。
はあ。考え出すときりがないですね。

無作為抽出と確率の関係

無作為抽出と確率の学習はどうつながるのでしょう。
母集団を構成する人や物が、すべて等確率で選ばれる、特定の誰かが(どれか)が選ばれる確率は「同程度に確からしい」ときに、乱数を使って「誰か(どれか)」を特定することで、選ばれた標本には偏りがなくなるだろう、と考えらます。
当然ですが、ここで用いる「乱数」も、ある範囲の値から特定の値が選ばれる確率が「同程度に確からしい」といえる方法ですね。乱数表を用いるのが正式なやり方ですが、PCで疑似乱数を発生させるのが簡便です。
詳しい方にお聞きしたことがありますが、乱数表による乱数と、PCによる疑似乱数を、人が見分けることはほぼ不可能だそうです。

それにしても、中学3年生でここまで学習することになるんですねえ。中学生がんばれ! 中学校の先生もがんばれ! そして、日本からどうでもいいアンケート調査を駆逐してくれ!

演習問題

「解説」から引用した、英和辞典の単語数調査を、実際にやってみてください。英和辞典以外にも、国語辞典、和英辞典など、収録語数がわかる辞典類なら、同様の活動ができると思います。