見出し画像

中1のデータ領域は新しい用語との戦いだ

Cover Photo by Wim van 't Einde on Unsplash

今回から、中学校で学習するデータの分布の内容を読み解いていきます。中学1年生には大きく2つの内容「データの分布」と「不確定な事象の起こりやすさ」があります。まず「データの分布」からです。

中学1年生(1)データの分布

(1) データの分布について,数学的活動を通して,次の事項を身に付ける
 ア:知識及び技能
  (ア)ヒストグラムや相対度数などの必要性と意味を理解すること。
  (イ)コンピュータなどの情報手段を用いるなどしてデータを表やグラフに整理すること。
 イ:思考力,判断力,表現力等
  (ア)目的に応じてデータを収集して分析し,そのデータの分布の傾向を読み取り,批判的に考察し判断すること。
〔用語・記号〕
  範囲 累積度数

「解説」より

項目イの「目的に応じて~」以下の内容は、小学校から繰り返し出てきていることですので、項目アにしぼって見ていきましょう。
ここでは、データを表やグラフで表す方法が一通り出そろいます。いくつかの学習用サイトにも書かれていますが、用語がたくさん出そろいますので、それぞれをきちんと整理して、実際の図表と関連づけて覚えることは、学習のスタートとして重要でしょう。

ヒストグラム

まず、6年生で「柱状グラフ」として説明されていたものが、中学1年生では「ヒストグラム」という名前で再登場します。追加されている内容は、階級幅の取り方によってヒストグラムの形状が変化することです。階級幅を変えて複数のヒストグラムを描いてみて、それらを比較してみる活動が示されています。統計学の教科書でかならず出てくる内容ですね。
また、データが「身近なもの」から、より「社会的なもの」に、そしてN数が大きくなることも特徴のようです。「解説」では、「ハンドボール投げの記録」(メートル、N=100)のほかに、病院での待ち時間(分、N=45)、ボウリング場の貸出シューズのサイズ(cm、多峰性のヒストグラム例)などが例示されています。

代表値の利用

代表値の利用は、小学校6年生で、平均値、中央値、最頻値を学習しました。もともと中学1年生で指導されていたものが、平成29年度告示の改訂で小学校6年生に移行されたようです。

散布度の利用

そのうえで、新たに散布度の指標が取り扱われています。中学1年生では「範囲」、すなわち「最大値」と「最小値」の差が扱われています。中央値とともに、四分位範囲の理解につながる内容です。たとえ平均値や中央値が同じでも、範囲が異なると、ヒストグラムの形状は大きく異なるので、そうした形状の違いを表す数値指標として、まず範囲が指導されるということのようです。
ただし、範囲という指標は、外れ値の影響をもろに受ける指標です。そもそも、データ全体の分布に対して極端に大きい(小さい)値を外れ値と言うのですから当然です。ですから、データの分布によっては、範囲だけで散布度を議論するのは不適当な場面も出てくると思われます。

相対度数・累積度数

相対度数も、5年生で割合を学習した時に登場していました。ここでは、Nの異なるデータを比較するときの方法として再度扱われています。
一方、累積度数は、いくつかの階級の度数を合計したものです。よく用いられるのは、最頻値の階級とその前後の階級で度数や相対度数を足し合わせ、全体の50%を超えるまでこの操作を繰り返すという方法です。全体傾向を大まかにつかむのに用いられます。

コンピュータの利用

最後に、知識理解の(イ)に、コンピュータの利用が挙げられている点に注目しましょう。さきほど例示したような、N=100のデータになると、手作業でグラフを描くのが大変になります。ミスも起きやすくなります。そこでコンピュータを利用することになりますが、具体的にどんなソフトウェアを使うのでしょうね。学習用の統計ソフトがあるのかもしれません。
この点では、Excelはあまり良い道具ではありません。むしろ、Rの使い方を覚えたほうが、描きたいヒストグラムを手早く描くことができます。

以上と未満

ところで、度数分布表やヒストグラムで階級を区切るとき、教科書では「**以上、**未満」という言い方をすることが普通のようです。たとえば、ハンドボール投げの記録であれば、「10m以上、20m未満」「20m以上、30m未満」のようにです。テストの点数など、データが整数に限られる場合には、「50点以上、60点未満」と書くところを、「50点~59点」「60点~69点」と書いたりします。この場合、59点と60点の間にデータは存在しない(つまり、59.5点という点数は存在しない)ことを意味しているといえます。
しかし、何らかの統計ソフトを使った経験のある方はわかるでしょうが、統計ソフトではこのあたりの扱いが異なっていて、多くの場合は、「50点より大きく、60点以下」(50 < x <= 60)のようになっています。整数のデータを扱うとき、とくにNの小さいデータを扱うときには、気になる方もいらっしゃるでしょう(私もそうでした!)。設定の変更の仕方を覚えておくのが大事です。
(こういう事情もあるからか、整数データを扱うときには、階級幅を「50以上60未満」ではなく、「49.5~59.5」のように小数にすればいいのだ!という説明を見かけたことがあります。なるほどねえ。そういう考えもあるのか。)

ネット上の教材探索

テストの点数データ(N=150)を例に、度数分布表やヒストグラムを作る意味とその方法を説明しています。階級幅の取り方で分布の見え方が変わることも説明されています。おおむね丁寧ですが、次の部分は誤りです。

上記サイトより

棒グラフのことをヒストグラムと言うのではありませんから、この記述は誤っています。描き方の注意点についても触れられていないのが残念です。

この動画では、ヒストグラムを「データを整理した棒グラフの1つ」と説明しています。横軸が階級を表し、縦軸が度数を表すこと、ビンどうしをくっつけて描くことなど、ポイントは正しく押さえられています。
ヒストグラムを描くときの指導でも、「ここの度数が4だから、4の目盛りのところに線を引いて、こんな風に棒グラフを描いていけばいいね」のように話しています。この言い方の方が生徒にはわかりやすいという判断なのだろうと想像します。でも、「四角形を」「長方形を」という言い方もできるので、「棒グラフを」はやめてほしいなと思います。
動画の後半では、「度数折れ線グラフ」についても説明されています。これは、放送大学教材「身近な統計」では、「度数多角形」として説明されているものです。2つのヒストグラムを比較するときに、このほうが重ね描きしやすいという特徴もあると思われます。

とても地味な作りのサイトですが、ヒストグラムについて、「長方形を並べたグラフ」であること、また、発展的な内容になりますが、「長方形の面積がその階級の度数に比例する」ことにも触れています。

その他、動画を提供しているサイトや、授業動画を配信しているYouTubeチャンネルがいくつもあります。「以上、未満」を丁寧に説明しているものもあれば、まったく触れていないものもあります。説明の分かりやすさを見比べて、あるいは動画の見やすさを見比べて、復習用のサイトを絞り込んでいくといいかもしれません。

演習問題

図1は、「解説」p.89に掲載されている、ハンドボール投げのデータです。適切と思われる階級幅を設定して、度数分布表を作り、ヒストグラムを作ってください。度数分布表やヒストグラムから、分布の特徴を述べてください。また、平均値、中央値、範囲を答えてください。