数学Ⅰ「データの分析」で学ぶこと

2023年3月4日 13:53

Cover Photo by Christopher Burns on Unsplash

小中学校に続いて、高等学校の数学科で学ぶデータ処理関連単元の内容についてみていきます。参照している資料は下のリンク先にある「【数学編　理数編】高等学校学習指導要領（平成30年告示）解説」（以下単に「解説」）です。
データ処理関連の単元は次の3つです。
（１）数学Ⅰ「データの分析」＜ーー中学1・2年「データの分布」
（２）数学Ａ「場合の数と確率」＜ーー中学1・2年「不確定な事象の起こりやすさ」
（３）数学Ｂ「統計的な推測」＜ーー中学3年「標本調査」
それぞれ、右に記した中学校での学習内容を継承しています。それぞれについて、新しい用語などを追加しつつ、内容を深めていくわけです。

数学Ⅰ「データの分析」

データの分析について，数学的活動を通して，その有用性を認識するとともに，次の事項を身に付けることができるよう指導する。
　ア　知識及び技能
　（ア）分散，標準偏差，散布図及び相関係数の意味やその用い方を理解すること。
　（イ）コンピュータなどの情報機器を用いるなどして，データを表やグラフに整理したり，分散や標準偏差などの基本的な統計量を求めたりすること。
　（ウ）具体的な事象において仮説検定の考え方を理解すること。
　イ　思考力，判断力，表現力等
　（ア）データの散らばり具合や傾向を数値化する方法を考察すること。
　（イ）目的に応じて複数の種類のデータを収集し，適切な統計量やグラフ，手法などを選択して分析を行い，データの傾向を把握して事象の特徴を表現すること。
　（ウ）不確実な事象の起こりやすさに着目し，主張の妥当性について，実験などを通して判断したり，批判的に考察したりすること。
［用語・記号］　外れ値

「解説」より

いよいよ「分散」の登場

散布度の指標として、中学校までに「範囲」「四分位数」が扱われていましたが、数学Ⅰでは「分散」「標準偏差」が扱われます。「範囲」「四分位数」が、中央値とより相性の良い統計量（”分位系”の統計量といいますね）であるのに対し、「分散」「標準偏差」は、平均値とより相性の良い統計量（”積率系”の統計量といいますね）です。
「分位系」と「積率系」の違いを簡単に表現すると、前者は、キリ番のデータにのみ注目する傾向があるのに対し、後者は、すべてのデータを用いて算出する統計量だといえます。

「キリ番のデータにのみ注目」とはどういうことでしょう。
たとえば中央値は、データを大きさ順に並べておいて、ちょうど真ん中の位置にだけ注目していますし、第3四分位数は、中央値と最大値のちょうど真ん中の位置にだけ注目しています。中央値と第3四分位数の「間にあるデータ」は、大きさ順に並んでさえいれば、ある意味「どうだっていい」のです。中央値が「外れ値の影響を受けない」のはこうした理由からですね。

「すべてのデータを用いて」計算する分散や標準偏差は、そうではありません。分散は、平均値とデータとの差（これを「偏差」といいます）を2乗した値を合計して、データ数で割ったものです。データが１つ訂正されると、当然「平均値」が変わります。すると当然、「偏差」が変わります。そうしたら当然、それを2乗した値も変化し、分散も変化し、分散の平方根である標準偏差も変化します。この変化は、データの修正の度合いが大きいほど、また、データ数が少ないほど、大きなものになります。平均値が「外れ値の影響を受けやすい」のはこうした理由からですね。逆に言えば、「すべてのデータを参照している」ことの証拠でもあります。

このことからわかるのは、中央値（分位系）と平均値（積率系）は、どちらが良い、というのではなく、意味の異なる2つの代表値（統計量）と考えるのが妥当である、ということです。適切に使い分けることが重要です。

どうして2乗してから合計するのか

しかし、分散を求めるのに、どうしていちいち「偏差を2乗して」から合計していくのでしょう。偏差をそのまま合計すると、なぜ都合が悪いのでしょう。2乗ではなく、絶対値を使ってはなぜだめなのでしょう。これについて、「解説」は次のようなことを提案しています。

指導に当たっては，例えば，各データと平均値の差の和，各データと平均値の差の絶対値の和，各データと平均値の差の2 乗の和，各データと中央値の差の和，各データと中央値の差の絶対値の和，各データと中央値の差の2 乗の和，及び，これらのそれぞれをデータの総数で除した値などの考えを出させ，それぞれの考えの長所や短所などについて話し合った上で，分散及び標準偏差を取り上げることも考えられる。

「解説」p.44

読み慣れないと混乱しそうな文章ですが、次の2つの点から散布度について考えさせる方法が提案されています。すなわち、
（１）（A）平均値との偏差か、（B）中央値との偏差か
（２）その偏差を合計するとき、（a）そのまま使うか、（b）絶対値にして使うか、（c）2乗してから使うか
です。（１）と（２）の組合せで6通りあり、通常の「分散」は（A、c）の組合せです。では、あとの5種類は、どうして通常は使われないのでしょう。ここはとても複雑ですが面白いところでもあるので、別の記事で改めて書きたいと思います。私が統計を学び始めたころに、あれこれ試行錯誤して悩んでいたのも、このあたりでした。これを丁寧に調べていくと、平均値の数学的な意味、すなわち、「平均値とは偏差平方和を最小にする値」の意味が明らかになります。これ、とても面白くて、美しいのです。

散布図と相関係数

中学校までに登場せず、数学Ⅰではじめて登場するものに、「散布図」と「相関係数」があります。これについては、

散布図、相関係数の意味を理解する
相関と因果の違いを理解する

などを指導することになっています。「解説」にはけっこうさらりと書いてありますが、実際の授業はかなり時間をとって指導することになると思います。

仮説検定の考え方

3つめの項目として、仮説検定の考え方を扱うことになっています。より詳細な内容は、数学Bで扱うのですが、ここでは次のような例が解説されています。

「ある新素材の枕を使用した30 人のうち80％にあたる24 人が以前よりよく眠れたと回答した」という場面を、コインを30回投げたら24回表が出たと解釈し直し、2項分布から、こうした結果がどれくらいの確率で起こるかを考える。そうすると、その確率から（2項分布の平均と標準偏差から）これが「めったに起きない事」であることがわかるので、「新素材の枕を使用するとよく眠れる」のだろうと結論できる。

どうでしょう。統計学を学び始めたばかりの方には、相当難しい思考過程ではないでしょうか。このような問題を、数学Ⅰで指導することになっています。参考までに計算結果を示すと、

新素材の枕を30人が使用したー＞試行回数は30（n=30）
よく眠れたと答えた人はひとまず半々だろうと予想するー＞成功確率は0.5（p=0.5）
実際にはよく眠れたという回答が24人だったー＞成功回数は24（x=24）
試行回数30、成功確率0.5の二項分布で考えると、
＊平均値＝np＝30×0.5＝15
＊分散＝np(1-p)＝30×0.5×(1-0.5)＝7.5
＊標準偏差＝分散の平方根≒2.7
試行回数30の2項分布は、正規分布の形にかなり近づくので、以後、平均15、標準偏差2.7の正規分布で考える。平均値±標準偏差×２の範囲は、およそ9.5～20.5となる。実際の成功回数24はこの範囲よりも外側にあるので、30人中24人が「よく眠れた」と答える確率は、約2.5％より小さいと言える。よって、新素材の枕は、よく眠れる枕なのだろうと推測できる。

総和演算記号（Σ）

最後に、総和演算記号の指導について、これについては数学Bで扱う、とだけ注釈があります。数学Bの「数列」に関する指導の中で、

Σの取扱いは，生徒にとって理解しやすいものではないので，Σを用いて表された数列の和を具体的な数の和の形で表したり，数列の和をΣを用いて表したりすることを通して，Σを用いた和の表し方を十分理解できるようにする。

「解説」p.103

とあります。四則演算の記号に比べると、見た目にもごつい記号であることも手伝って、数学に苦手意識がある生徒には、それなりに高いハードルになると思われます。