見出し画像

中学校で身につけるデータ処理スキル

Cover Photo by Wim van 't Einde on Unsplash

前回まで、中学校学習指導要領D領域「データの活用」を読み解いてきました。今回は、市販のドリル教材に掲載されている問題を参照しつつ、中学校3年間でどんなデータ処理スキルを身につけておくことが求められているのか、まとめておきます。小学校と同じ学研の教材から、「学研パーフェクトコース」問題集を参照しています。掲載されている問題の引用はいたしませんし、この問題集をお勧めしているわけでもありません。

Ⅰ 資料の整理(1,2年「データの分布」)

(1)度数分布表・ヒストグラム

まず、度数分布表、ヒストグラムを正しく読み取り、実際に度数分布表やヒストグラムを描くことが求められています。スキルを細分化すると、次のようになります。

  • 度数分布表について、

    • 階級幅・最頻値の階級を答える

    • 階級値・相対度数・累積度数・累積相対度数を計算する

    • 相対度数から度数を計算する

  • ヒストグラムについて、

    • サンプルサイズ・中央値・最頻値を求める

  • ローデータをもとに度数分布表を作る

  • 度数分布表をもとにヒストグラム(累積度数折れ線)を作る

  • サイズの異なる2つのデータの度数・相対度数を比較する

この中では、最後に書いた「サイズの異なる2つのデータの度数・累積度数を比較する」が、比較的難易度の高いものでしょう。

(2)代表値

代表値については小学6年生である程度学習していますが、中学校ではさらに、度数分布表から、階級値と度数をもとに求める方法も学習します。

  • 平均値・中央値・最頻値を計算する(ローデータから、度数分布表から)

  • 最大値、最小値、範囲を答える(ローデータから、度数分布表から)

  • 平均値から合計、合計から特定データの値を求める

ここも、最後に書いたのが比較的難しい内容です。これは、ローデータの一部を隠した状態($${x}$$)で提示し、平均値を示して$${x}$$を求めさせる、という問題です。
要するに、平均値にサンプルサイズを掛けるとデータの総和が求められる、そこから、明らかになっているデータの総和を引く、そうすると、隠されたデータ$${x}$$が求められる、ということですね。「平均値とはどのようにして求めるのか」がわかっていれば簡単な問題というわけです。

(3)箱ひげ図

  • 第1・第3四分位数を求める、四分位範囲を計算する

  • 箱ひげ図をかく

  • ヒストグラムと箱ひげ図を対応させる

四分位数の求め方は複数あることをすでに書きましたが、冒頭に示した問題集では、四分位数を使う問題については、サンプルサイズが13や9など、計算しやすいものになっています。そうでないと、箱ひげ図を手で描くのが難しくなりすぎますからね。
そして、「ヒストグラムと箱ひげ図を対応させる」のが、もっとも難易度の高い問題です。冒頭の問題集には、比較的区別しやすいものが示されていますが、抽象的で難しいと思われます。

ここまでが「データの整理」の内容にかかわるスキルの整理です。統計処理としては基礎的な部分で、ひとつひとつのスキルは決して難しいものではないと思います。とはいえ、冒頭の問題集では、手を変え品を変えて、いろいろな計算をしないと答えられない問題も出されています(特に入試問題の過去問と思われる問題で顕著)。こういう問題のせいで統計学を嫌いになる生徒が増えないといいなと思ったりします。

Ⅱ 確率(1,2年「不確定な事象の起こりやすさ」)

確率の内容は、ほぼ次の2つのことに集約されるようです。

  1. ある事象の起こる場合の数÷全事象の場合の数=ある事象の起こる確率

  2. ある事象が起こらない確率=1-その事象が起こる確率

そこで、求められるスキルは、次のように細分化されます。

  • 事象(順列)を数え上げる

  • 注目する事象の確率を計算する

  • 絶対に起こらない確率を答える

問題集を見ていると、問題を正しく解くために必要なのは、いかに正しく数え上げるか、だと思わされます。すべての場合の数はいくつであり、そのうち問題の条件にあう場合の数はいくつであるか。それが正しく数え上げられれば、ほとんどの問題は解けそうです。やはり、あまりにも細かい問題の設定に嫌気がさして、確率嫌いが増えませんようにと願ったりします。

Ⅲ 標本調査(3年)

標本調査についてのスキルは次のようなものです。

  • 母集団・標本・標本調査・標本サイズ(標本の大きさ)について理解している

  • 無作為抽出について理解している

  • 標本比率をもとに母集団の傾向を予測できる

最初の2つは、用語の理解です。この中で比較的誤解が多いのは「標本サイズ(標本の大きさ)」でしょう。
ここまでの記事では「サンプルサイズ」と表記していますが、同じ意味です。(実際には「サンプルサイズ」と書いてよいのか微妙な文脈もあるのですが、ややこしいのでスルーしています・・・)
これを、「標本の数」「サンプル数」と書いてしまうと別の意味になります。教える先生が言い間違えないかどうかとても心配ですし、うっかり言い間違えたのを生徒が覚えていて混乱するのはもっと心配です。

最後の予測問題がややわかりにくいまとめ方になってしまっています。たとえば、全校生徒から無作為抽出した生徒のうち、数学の得意な生徒は12%だったが、これをもとに考えると、全校生徒800人のうち数学の得意な生徒は何人いるか、という問題です。式にすれば単純な計算問題なのですが、問題文が異常に難しく見えるのがネックになるのだと思われます。

演習問題

やや入試問題風のものを考えてみました。問題の解答を考えるだけでなく、問題の設定や問題文の表記についても、批判的に検討してください。以下、すべて架空の設定および結果です。

データの整理

ある学習センターの教室Aと教室Bで開講された面接授業の参加者に、年齢を尋ねました。

受講生の年齢調査

教室Aについては集計済みですが、教室Bについては、集計が終わっていません。データは次のようになっています。

教室Bの学生の年齢調査
37, 42, 44, 46, 48, 37, 38, 25, 29, 52, 51, 71, 67, 
68, 68, 30, 31, 45, 46, 58, 33, 35, 60, 66, 36 

以上をもとに、答えてください。

  1. 教室Bの度数分布表とヒストグラムを作成してください。

  2. 作成した度数分布表に、相対度数、累積度数、累積相対度数を付け加えてください。

  3. 教室A、教室Bについて、それぞれ、中央値と最頻値を求めてください。

  4. 次の文章が正しいかどうかを判断してください。
    (1) 40~49歳の人は教室Aのほうが多い。
    (2) 20~29歳の人の割合は、教室Aのほうが高い。
    (3) 教室Aの50~59歳の人の割合と、教室Bの30~39歳の人の割合は等しい。
    (4) 教室Aと教室Bを合わせた65名の中で、最も若い人は20歳である。
    (5) 教室Aでは、「教室Bの中央値の年齢より若い人の割合」がちょうど50%である。

代表値

10人がテストを受験したところ、次のような点数でした。

65, 75, 90, 75, 90, 70, 65, 85, 85, ?

10人の平均値が78点であるとき、「?」の人の点数は何点ですか。また、そのときの中央値は何点ですか。

標本調査

放送大学のA学習センターで、A学習センター所属の学生が、一週間に何時間くらい勉強しているかを調べようと計画しました。そこで、ある日の客員教員ゼミBに参加した学生15名と、別の日の客員教員ゼミCに参加した学生12名に質問用紙を配布し、合計27名全員から回答をもらいました。集計した結果、一週間の勉強時間の平均は約4時間20分(最小値は1時間、最大値は12時間)でした。A学習センターの学生は、一週間に4時間くらい勉強している学生が多いだろうと考えました。

この調査(架空の設定および結果)について答えてください。

  1. 母集団、標本はそれぞれ何ですか。

  2. 標本数、標本サイズはそれぞれいくつですか。

  3. 標本の選び方についての問題点と、それによる回答の歪みの可能性について考えてください。

  4. 代表値の選び方は適切でしょうか。問題からわかる範囲で考えてください。

  5. 「A学習センターの学生は、一週間に4時間くらい勉強している学生が多いだろうと考えました。」という結論について、批判的に検討してください。