見出し画像

【高校情報1】四分位数・箱ひげ図を使ったデータ分析/埼玉県熊谷市/教員研修用教材

◆◆はじめに◆◆

文部科学省:高等学校情報科「情報1」教員研修用教材  
第4章 情報通信ネットワークとデータ活用
 学習22 データ分析 四分位数・箱ひげ図 抜粋

高等学校情報科「情報Ⅰ」教員研修用教材(本編):文部科学省
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

四分位数と箱ひげ図の部分を抜粋して解説しました。
個人的に高校時代に四分位数を習った記憶が無い・・
解説サイトや数学ⅠのYouTube動画色々見て勉強した内容を教員研修用教材に当てはめて解説しています
(やっぱり動画は理解が早まると学ぶ立場でもつくづく思う)

◆◆動画解説◆


◆◆文字おこし◆◆

今日は四分位数と箱ひげ図について学んで、埼玉県熊谷市の気温のデータ分析をしていこう。

画像1

まず四分位数とは、
データ全体を4等分したときの境目の数のことなんだ。。
2等分した場合の、ど真ん中の値を中央値と言ったよね。四分位数は4等分だからいいかえれば中央値の進化系なんだ。

画像2

例えばこの図がデータ全体だとすると、4等分したければ、こんな感じで区切るよね。
この4等分する位置にある値を四分位数といって
左から第1四分位数、第2四分位数、第3四分位数という
第1四分位数はQ1、第2四分位数はQ2、第3四分位数はQ3ともいう。
そして、第2四分位数はちょうど真ん中に来ているよね。つまり第2四分位数は中央値のことなんだ。

画像3

具体的な数を当てはめていこう、
1、3、6、8、10、13

まず、四分位数を求める上で、数値を小さい順に並び変える必要があるから、
ならびかえると
1、3、6、8、10、13
の順になるよね。

そしてこれを四等分にする。
まずは、真ん中でぱっくりわけよう。
ちょうど真ん中で分けると、中央の線は6と8の間だよね。
その場合は二つの数の平均をとって7が中央値つまり第2四分位数となる。

第1四分位数は、さっき線を引いた中央より左側の中で真ん中になるのは3になる。これはちょうど3がど真ん中になるから平均を求める必要はなく、3が第1四分位数となる。

第3四分位数は、さっき線を引いた中央より右側の中で真ん中になるのは10になる。これもちょうど10がど真ん中になるから平均を求める必要はなく、10が第3四分位数となる。

――――――

画像5



今は偶数個のデータでやったけど、奇数個でも確認していこう。
さっきのデータの最後に15を追加して7つとする
1、3、6、8、10、13、15
丁度ど真ん中は、8だから、第2四分位数の中央値は8となる。
第1四分位数は、ど真ん中から左側のグループで真ん中は3だから、第1四分位数は3となる。
第3四分位数はど真ん中から右側のグループで真ん中は13だから、第3四分位数は13となる。
――――――――

画像6

じゃあ、今度は四分位範囲と四分位偏差について説明するね。
これはデータのばらつき度合いを示す値なんだ。

四分位範囲は、四分位数の中で一番大きい第3四分位数から、一番小さい第1四分位数を引いた数のことなんだ。図で示すとQ1からQ3までの範囲となる。

そして、四分位偏差は、この四分位範囲を2で割ったものになる。
式であらわすと、2分の(Q3―Q1)となる。

画像7

一番初めに求めた四分位数の例で、具体的数を当てはめていこう
まず第3四分位数は10、第一四分位数は3だから
四分位範囲は10―3で7となる

四分位偏差は四分位範囲を2でわったものだから2分の7で3.5となる。

画像8

この四分位数は箱ひげ図という図で表すことができる。

その名の通り、箱からヒゲが伸びた感じの図だね。

まず、箱の左側は第1四分位数を表している。箱の右側は第三四分位数
箱の中にある線は、第2四分位数である中央値を表している。
この図の中に平均値を表すことがあって、その場合は+の記号を書く。
そしてヒゲの左端は最小値、ヒゲの右側は最大値を表している。

画像9

箱ひげ図は、こんな感じでたて書きで表す場合もある。

画像10

箱ひげ図には、外れ値というものが記述されている場合がある。
外れ値は、ばらつきを見るうえで、極端に小さな値や大きな値を分布の範囲から外だしにする。

外れ値は、四分位範囲の1.5倍を基準とする。

今回は四分位範囲は7だから、7×1.5は10.5
第3四分位数の10に10.5をプラスすると20.5となり、この20.5を超えるものは外れ値となる。
最小も同じように、第1四分位数の3から10.5をマイナスしたー7.5を下回るものは外れ値となる。

この図の中で最大値の右側に外れ値があった場合は、
外れ値以外の中で最大値という意味になる。


四分位数はエクセルの関数でも求めることができる。

熊谷市の最高気温のデータを利用して確認していこう。
気象庁のホームページから過去の気象データのダウンロードができる。概要欄にもリンクを貼っておくね

画像11

地点を選ぶで埼玉県の熊谷市を選択する。
項目を選ぶで、データの種類は日別値、気温タブの最高気温にチェックを入れる

期間は2017年と2018年の気温のデータを丸ごとダウンロードしよう。

落としたデータの7月1日から8月31日までのデータを抽出した表がこれになる。

画像12

エクセル関数で最高、最低、四分位数、平均を求めていこう
まずは最高は、MAX関数を使う。最高値を求めたい範囲を選ぶと、2017年は37.8 2018は41.1となる。
第3四分位数はQUARTILE.INC関数を使う。範囲を指定して、第二引数は第3四分位数を意味する3を入れる。
小数点以下第二位を四捨五入して第一までの表示とすると
2017年は34.6 2018年は37.4 となる。
中央値はさっきのQUARTILE.でも可能だけど、MEDIAN関数を使おう。
2017年は32.2 2018は35.4となる。
第1四分位数は第3四分位数と同様にQUARTILE.INCを使う。範囲を指定して、第二引数は第1四分位数を意味する1を入れる。
2017年は29.1 2018は31.9となる。
最低は、MIN関数を使う。範囲を指定すると、
2017年は23 2018は23.4となる。

平均値はAVERAGE関数を使う。範囲をしていすると
2017年は31.7 2018年は34.3となる。

箱ひげ図でも表していこう。
2017年と2018年のデータを纏めて範囲指定しよう。この時日付を範囲指定すると上手くいかないから気を付けてね。
そして、挿入タブからおすすめグラフを選ぶ。
すべてのグラフのタブを選んで、メニューの中から箱ひげ図を選んでそのままOKをクリックしよう
箱ひげ図が表示されたね。このグラフより2018年の方が全体的に気温が高くなっていることが分かるね。

今日の四分位範囲などは数学でも習ったと思うけど、データ分析する上では数学の知識も必要になってくるからしっかり復習しておこう。



いいなと思ったら応援しよう!