数学Ⅰ「データの分析」で学ぶこと
Cover Photo by Christopher Burns on Unsplash
小中学校に続いて、高等学校の数学科で学ぶデータ処理関連単元の内容についてみていきます。参照している資料は下のリンク先にある「【数学編 理数編】高等学校学習指導要領(平成30年告示)解説」(以下単に「解説」)です。
データ処理関連の単元は次の3つです。
(1)数学Ⅰ「データの分析」<ーー中学1・2年「データの分布」
(2)数学A「場合の数と確率」<ーー中学1・2年「不確定な事象の起こりやすさ」
(3)数学B「統計的な推測」<ーー中学3年「標本調査」
それぞれ、右に記した中学校での学習内容を継承しています。それぞれについて、新しい用語などを追加しつつ、内容を深めていくわけです。
数学Ⅰ「データの分析」
いよいよ「分散」の登場
散布度の指標として、中学校までに「範囲」「四分位数」が扱われていましたが、数学Ⅰでは「分散」「標準偏差」が扱われます。「範囲」「四分位数」が、中央値とより相性の良い統計量(”分位系”の統計量といいますね)であるのに対し、「分散」「標準偏差」は、平均値とより相性の良い統計量(”積率系”の統計量といいますね)です。
「分位系」と「積率系」の違いを簡単に表現すると、前者は、キリ番のデータにのみ注目する傾向があるのに対し、後者は、すべてのデータを用いて算出する統計量だといえます。
「キリ番のデータにのみ注目」とはどういうことでしょう。
たとえば中央値は、データを大きさ順に並べておいて、ちょうど真ん中の位置にだけ注目していますし、第3四分位数は、中央値と最大値のちょうど真ん中の位置にだけ注目しています。中央値と第3四分位数の「間にあるデータ」は、大きさ順に並んでさえいれば、ある意味「どうだっていい」のです。中央値が「外れ値の影響を受けない」のはこうした理由からですね。
「すべてのデータを用いて」計算する分散や標準偏差は、そうではありません。分散は、平均値とデータとの差(これを「偏差」といいます)を2乗した値を合計して、データ数で割ったものです。データが1つ訂正されると、当然「平均値」が変わります。すると当然、「偏差」が変わります。そうしたら当然、それを2乗した値も変化し、分散も変化し、分散の平方根である標準偏差も変化します。この変化は、データの修正の度合いが大きいほど、また、データ数が少ないほど、大きなものになります。平均値が「外れ値の影響を受けやすい」のはこうした理由からですね。逆に言えば、「すべてのデータを参照している」ことの証拠でもあります。
このことからわかるのは、中央値(分位系)と平均値(積率系)は、どちらが良い、というのではなく、意味の異なる2つの代表値(統計量)と考えるのが妥当である、ということです。適切に使い分けることが重要です。
どうして2乗してから合計するのか
しかし、分散を求めるのに、どうしていちいち「偏差を2乗して」から合計していくのでしょう。偏差をそのまま合計すると、なぜ都合が悪いのでしょう。2乗ではなく、絶対値を使ってはなぜだめなのでしょう。これについて、「解説」は次のようなことを提案しています。
読み慣れないと混乱しそうな文章ですが、次の2つの点から散布度について考えさせる方法が提案されています。すなわち、
(1)(A)平均値との偏差か、(B)中央値との偏差か
(2)その偏差を合計するとき、(a)そのまま使うか、(b)絶対値にして使うか、(c)2乗してから使うか
です。(1)と(2)の組合せで6通りあり、通常の「分散」は(A、c)の組合せです。では、あとの5種類は、どうして通常は使われないのでしょう。ここはとても複雑ですが面白いところでもあるので、別の記事で改めて書きたいと思います。私が統計を学び始めたころに、あれこれ試行錯誤して悩んでいたのも、このあたりでした。これを丁寧に調べていくと、平均値の数学的な意味、すなわち、「平均値とは偏差平方和を最小にする値」の意味が明らかになります。これ、とても面白くて、美しいのです。
散布図と相関係数
中学校までに登場せず、数学Ⅰではじめて登場するものに、「散布図」と「相関係数」があります。これについては、
散布図、相関係数の意味を理解する
相関と因果の違いを理解する
などを指導することになっています。「解説」にはけっこうさらりと書いてありますが、実際の授業はかなり時間をとって指導することになると思います。
仮説検定の考え方
3つめの項目として、仮説検定の考え方を扱うことになっています。より詳細な内容は、数学Bで扱うのですが、ここでは次のような例が解説されています。
「ある新素材の枕を使用した30 人のうち80%にあたる24 人が以前よりよく眠れたと回答した」という場面を、コインを30回投げたら24回表が出たと解釈し直し、2項分布から、こうした結果がどれくらいの確率で起こるかを考える。そうすると、その確率から(2項分布の平均と標準偏差から)これが「めったに起きない事」であることがわかるので、「新素材の枕を使用するとよく眠れる」のだろうと結論できる。
どうでしょう。統計学を学び始めたばかりの方には、相当難しい思考過程ではないでしょうか。このような問題を、数学Ⅰで指導することになっています。参考までに計算結果を示すと、
新素材の枕を30人が使用したー>試行回数は30(n=30)
よく眠れたと答えた人はひとまず半々だろうと予想するー>成功確率は0.5(p=0.5)
実際にはよく眠れたという回答が24人だったー>成功回数は24(x=24)
試行回数30、成功確率0.5の二項分布で考えると、
*平均値=np=30×0.5=15
*分散=np(1-p)=30×0.5×(1-0.5)=7.5
*標準偏差=分散の平方根≒2.7
試行回数30の2項分布は、正規分布の形にかなり近づくので、以後、平均15、標準偏差2.7の正規分布で考える。平均値±標準偏差×2の範囲は、およそ9.5~20.5となる。実際の成功回数24はこの範囲よりも外側にあるので、30人中24人が「よく眠れた」と答える確率は、約2.5%より小さいと言える。よって、新素材の枕は、よく眠れる枕なのだろうと推測できる。
総和演算記号(Σ)
最後に、総和演算記号の指導について、これについては数学Bで扱う、とだけ注釈があります。数学Bの「数列」に関する指導の中で、
とあります。四則演算の記号に比べると、見た目にもごつい記号であることも手伝って、数学に苦手意識がある生徒には、それなりに高いハードルになると思われます。