見出し画像

数学Ⅰ「データの分析」で学ぶこと

Cover Photo by Christopher Burns on Unsplash

小中学校に続いて、高等学校の数学科で学ぶデータ処理関連単元の内容についてみていきます。参照している資料は下のリンク先にある「【数学編 理数編】高等学校学習指導要領(平成30年告示)解説」(以下単に「解説」)です。
データ処理関連の単元は次の3つです。
(1)数学Ⅰ「データの分析」<ーー中学1・2年「データの分布」
(2)数学A「場合の数と確率」<ーー中学1・2年「不確定な事象の起こりやすさ」
(3)数学B「統計的な推測」<ーー中学3年「標本調査」
それぞれ、右に記した中学校での学習内容を継承しています。それぞれについて、新しい用語などを追加しつつ、内容を深めていくわけです。

数学Ⅰ「データの分析」

データの分析について,数学的活動を通して,その有用性を認識するとともに,次の事項を身に付けることができるよう指導する。
 ア 知識及び技能
 (ア)分散,標準偏差,散布図及び相関係数の意味やその用い方を理解すること。
 (イ)コンピュータなどの情報機器を用いるなどして,データを表やグラフに整理したり,分散や標準偏差などの基本的な統計量を求めたりすること。
 (ウ)具体的な事象において仮説検定の考え方を理解すること。
 イ 思考力,判断力,表現力等
 (ア)データの散らばり具合や傾向を数値化する方法を考察すること。
 (イ)目的に応じて複数の種類のデータを収集し,適切な統計量やグラフ,手法などを選択して分析を行い,データの傾向を把握して事象の特徴を表現すること。
 (ウ)不確実な事象の起こりやすさに着目し,主張の妥当性について,実験などを通して判断したり,批判的に考察したりすること。
[用語・記号] 外れ値

「解説」より

いよいよ「分散」の登場

散布度の指標として、中学校までに「範囲」「四分位数」が扱われていましたが、数学Ⅰでは「分散」「標準偏差」が扱われます。「範囲」「四分位数」が、中央値とより相性の良い統計量(”分位系”の統計量といいますね)であるのに対し、「分散」「標準偏差」は、平均値とより相性の良い統計量(”積率系”の統計量といいますね)です。
「分位系」と「積率系」の違いを簡単に表現すると、前者は、キリ番のデータにのみ注目する傾向があるのに対し、後者は、すべてのデータを用いて算出する統計量だといえます。

キリ番のデータにのみ注目」とはどういうことでしょう。
たとえば中央値は、データを大きさ順に並べておいて、ちょうど真ん中の位置にだけ注目していますし、第3四分位数は、中央値と最大値のちょうど真ん中の位置にだけ注目しています。中央値と第3四分位数の「間にあるデータ」は、大きさ順に並んでさえいれば、ある意味「どうだっていい」のです。中央値が「外れ値の影響を受けない」のはこうした理由からですね。

すべてのデータを用いて」計算する分散や標準偏差は、そうではありません。分散は、平均値とデータとの差(これを「偏差」といいます)を2乗した値を合計して、データ数で割ったものです。データが1つ訂正されると、当然「平均値」が変わります。すると当然、「偏差」が変わります。そうしたら当然、それを2乗した値も変化し、分散も変化し、分散の平方根である標準偏差も変化します。この変化は、データの修正の度合いが大きいほど、また、データ数が少ないほど、大きなものになります。平均値が「外れ値の影響を受けやすい」のはこうした理由からですね。逆に言えば、「すべてのデータを参照している」ことの証拠でもあります。

このことからわかるのは、中央値(分位系)と平均値(積率系)は、どちらが良い、というのではなく、意味の異なる2つの代表値(統計量)と考えるのが妥当である、ということです。適切に使い分けることが重要です。

どうして2乗してから合計するのか

しかし、分散を求めるのに、どうしていちいち「偏差を2乗して」から合計していくのでしょう。偏差をそのまま合計すると、なぜ都合が悪いのでしょう。2乗ではなく、絶対値を使ってはなぜだめなのでしょう。これについて、「解説」は次のようなことを提案しています。

指導に当たっては,例えば,各データと平均値の差の和,各データと平均値の差の絶対値の和,各データと平均値の差の2 乗の和,各データと中央値の差の和,各データと中央値の差の絶対値の和,各データと中央値の差の2 乗の和,及び,これらのそれぞれをデータの総数で除した値などの考えを出させ,それぞれの考えの長所や短所などについて話し合った上で,分散及び標準偏差を取り上げることも考えられる。

「解説」p.44

読み慣れないと混乱しそうな文章ですが、次の2つの点から散布度について考えさせる方法が提案されています。すなわち、
(1)(A)平均値との偏差か、(B)中央値との偏差か
(2)その偏差を合計するとき、(a)そのまま使うか、(b)絶対値にして使うか、(c)2乗してから使うか
です。(1)と(2)の組合せで6通りあり、通常の「分散」は(A、c)の組合せです。では、あとの5種類は、どうして通常は使われないのでしょう。ここはとても複雑ですが面白いところでもあるので、別の記事で改めて書きたいと思います。私が統計を学び始めたころに、あれこれ試行錯誤して悩んでいたのも、このあたりでした。これを丁寧に調べていくと、平均値の数学的な意味、すなわち、「平均値とは偏差平方和を最小にする値」の意味が明らかになります。これ、とても面白くて、美しいのです。

散布図と相関係数

中学校までに登場せず、数学Ⅰではじめて登場するものに、「散布図」と「相関係数」があります。これについては、

  • 散布図、相関係数の意味を理解する

  • 相関と因果の違いを理解する

などを指導することになっています。「解説」にはけっこうさらりと書いてありますが、実際の授業はかなり時間をとって指導することになると思います。

仮説検定の考え方

3つめの項目として、仮説検定の考え方を扱うことになっています。より詳細な内容は、数学Bで扱うのですが、ここでは次のような例が解説されています。

「ある新素材の枕を使用した30 人のうち80%にあたる24 人が以前よりよく眠れたと回答した」という場面を、コインを30回投げたら24回表が出たと解釈し直し、2項分布から、こうした結果がどれくらいの確率で起こるかを考える。そうすると、その確率から(2項分布の平均と標準偏差から)これが「めったに起きない事」であることがわかるので、「新素材の枕を使用するとよく眠れる」のだろうと結論できる。

どうでしょう。統計学を学び始めたばかりの方には、相当難しい思考過程ではないでしょうか。このような問題を、数学Ⅰで指導することになっています。参考までに計算結果を示すと、

新素材の枕を30人が使用したー>試行回数は30(n=30)
よく眠れたと答えた人はひとまず半々だろうと予想するー>成功確率は0.5(p=0.5)
実際にはよく眠れたという回答が24人だったー>成功回数は24(x=24)
試行回数30、成功確率0.5の二項分布で考えると、
*平均値=np=30×0.5=15
*分散=np(1-p)=30×0.5×(1-0.5)=7.5
*標準偏差=分散の平方根≒2.7
試行回数30の2項分布は、正規分布の形にかなり近づくので、以後、平均15、標準偏差2.7の正規分布で考える。平均値±標準偏差×2の範囲は、およそ9.5~20.5となる。実際の成功回数24はこの範囲よりも外側にあるので、30人中24人が「よく眠れた」と答える確率は、約2.5%より小さいと言える。よって、新素材の枕は、よく眠れる枕なのだろうと推測できる。

成功確率0.5、試行回数30の二項分布の確率分布

総和演算記号(Σ)

最後に、総和演算記号の指導について、これについては数学Bで扱う、とだけ注釈があります。数学Bの「数列」に関する指導の中で、

Σの取扱いは,生徒にとって理解しやすいものではないので,Σを用いて表された数列の和を具体的な数の和の形で表したり,数列の和をΣを用いて表したりすることを通して,Σを用いた和の表し方を十分理解できるようにする。

「解説」p.103

とあります。四則演算の記号に比べると、見た目にもごつい記号であることも手伝って、数学に苦手意識がある生徒には、それなりに高いハードルになると思われます。