「データの活用」代表値について ~前置き編~
2021年より、小学校算数、中学数学に「データの活用」という単元が追加されました。
ITリテラシーの向上
金融リテラシーの向上
主にはこれらの要請にこたえるために、データを正しく分析する能力が求められ、統計教育を重視するという方向にかじを切っているといえます。
高校では「情報」が必修となり、「情報」では統計をはじめとした数学能力が必要となり、大学共通テストにおいても必修になります。
文系志望の方においても、
情報関連の学部、学科は、多くの文系の学生も志望しますし、数学を試験科目としていく従来の文系学部、学科も増加していくと予想されます。
最も重要なことは、受験うんぬんの話ではなく、事実として、
主には、高度なIT化と仕事の効率化にさらされている背景から、実社会においても数学的視点や能力が求められている
ことです。
前置きはさておき、中学の「データの活用」では、さわりとはいえ結構高度な内容をやっているのだな、という印象を持っています。
今回以降、3回に分けて、
・平均値
・最頻値
・中央値
について取り上げたいと思います。
*「度数」、「階級」、「ヒストグラム」をはじめとした基本的な用語と知識はもっていることを前提として説明いたします。
これら3つの値は、何かのデータのグループがあったとき、データの全体像あるいは特徴を伝えるための代表的な値、といえます。
3つからどれを選べばよいのか、、、
最初に結論を言うと、どれを使って代表値として説明するのかは目的次第で、正解はありません。
流れとしては、
「ヒストグラム」などで整理したデータとにらめっこします
そこから「なにが言えるのか」「なにを言いたいのか」を整理します。
「何を言いたいのか」の目的に合わせて、「平均値、最頻値、中央値」から適切な代表値を選択します。
となります。
「選んだ代表値が、自分の説明したいことの全体像あるいは特徴を、よりあらわしている」
ということを、読み手にしっかりと説明できるというスタンスを持つことが重要です。
それがないと、
選んだ代表値が、まったく全体像を表していない場合があり、データの読み手に誤解を与えてしまうことがあります。
もっと言うと、自分の都合の良いようにデータを使って、意図的に他人に間違った情報を与えることもできてしまいます。
データを使う側も、読む側もリテラシーが求められるのはこのような理由であり、IT化が進んだ現代では、日々このような場面に接しています。
実社会においても、「とりあえず平均値をつかって説明」していることは多く、「詐欺のような説明」になってしまっているケースは実際にあります。
というわけで、次回以降、
「平均値、最頻値、中央値」
について説明をしてみたいと思います。