【高校情報授業】分散と標準偏差・偏差値/四分位数と箱ひげ図/度数分布表とヒストグラム/尺度/オープンデータ【共通テスト対策】
分散と標準偏差・偏差値/四分位数と箱ひげ図/度数分布表とヒストグラム/尺度/オープンデータ
情報Ⅰ共通テスト対策 書籍出版します!
【資料ダウンロード】
PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。
情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。
■PowerPoint・エクセル資料
https://toppakou.com/info1/download/25_データの収集と整理/25_データの収集と整理_27_統計量と尺度.pptx
https://toppakou.com/info1/download/25_データの収集と整理/エクセル資料.xlsx
■簡易学習指導案
https://toppakou.com/info1/download/25_データの収集と整理/【学習指導案】25_データの収集と整理_27_統計量と尺度.docx
【文字おこし】
今回はデータ分析関連で、四分位数、箱ひげ図、ヒストグラム、分散、標準偏差、尺度などについて解説していきます。
以前のデータベースの授業で埼玉県川越市のAED設置場所の一覧であるオープンデータを使って、人口密度とAEDの設置件数の関係を調べました。
他には、気象庁は気象データ 国土交通省は防災データ 総務省統計局は 人口データ等をオープンデータとして公開しています。
気象庁|最新の気象データ (jma.go.jp)
https://www.data.jma.go.jp/obd/stats/data/mdrr/index.html
防災情報XML - DATA GO JP
https://www.data.go.jp/data/dataset/mlit_20170902_0034
統計局ホームページ/人口推計 (stat.go.jp)
https://www.stat.go.jp/data/jinsui/
データはカンマ区切りのCSV形式、タグで構造化されたXML形式などで提供されています。データを読み込むアプリケーションが対応している形式のものを利用します
これらは、統計学や情報技術を使ったデータ分析によって、客観的で信頼できる情報を取り出す技術の開発が進んでいます。
そして、この先どのような変化が予想されるかなどを模擬環境で検証を行うシミュレーションが一般化してきて問題解決・技術の発展に寄与しています。
ICTを活用した問題解決手法を身につけることはこれからの社会で必要な資質となっていて、高校の情報科目でもその資質が身につけることを1つの目標としています。
―――
データは複数組み合わせることによって新たな情報が生まれ、さらに有効な解決策を見つけられることがあります
例えば A地点の日時と雨量のデータとB地点の日時のデータがあったとします。
そして、A地点の日時と川の水位のデータがあった場合
日時をキー項目にしてお互いのデータを紐づけることができます。
この紐づけをリレーションシップと言います。
データベースの授業でも説明しましたが、
お互いの表を日時をキーに結合しデータの比較をすることができます。
★四分位数と箱ひげ図★
得られたデータの特徴を表す主な統計量について説明していきます。
まずは、四分位数と箱ひげ図について学んで、埼玉県熊谷市の気温のデータ分析をしていきます。
まず四分位数とは、
データ全体を4等分したときの境目の数のことになります。
2等分した場合の、ど真ん中の値を中央値といいます。四分位数は4等分なのでいいかえれば中央値の進化系になります。
例えばこの図がデータ全体だとすれば、4等分したければ、こんな感じで区切ります。
この4等分する位置にある値を四分位数といいます。
左から第1四分位数、第2四分位数、第3四分位数といいます。
第1四分位数はQ1、第2四分位数はQ2、第3四分位数はQ3とも呼びます。
そして、第2四分位数はちょうど真ん中に来ています。つまり第2四分位数は中央値のことになります。
具体的に簡単な数を当てはめていきます。、
1、3、6、8、10、13
まず、四分位数を求める上で、数値を小さい順に並び変える必要があります。
ならびかえると
1、3、6、8、10、13
の順になります。
そしてこれを四等分にします。
まずは、真ん中でぱっくりわけます。
ちょうど真ん中で分けると、中央の線は6と8の間になります。
その場合は二つの数の平均をとって7が中央値つまり第2四分位数となります。
第1四分位数は、さっき線を引いた中央より左側の中で真ん中になるのは3になります。
これはちょうど3がど真ん中になるので平均を求める必要はなく、3が第1四分位数となります。
第3四分位数は、さっき線を引いた中央より右側の中で真ん中になるのは10になります。これもちょうど10がど真ん中になるので平均を求める必要はなく、10が第3四分位数となります。
――――――
今は偶数個のデータでやりましたが、奇数個でも確認していきましょう。。
さっきのデータの最後に15を追加して7つとします。
1、3、6、8、10、13、15
丁度ど真ん中は、8だから、第2四分位数の中央値は8となります。
第1四分位数は、ど真ん中から左側のグループで真ん中は3なので、第1四分位数は3となります。
第3四分位数は、ど真ん中から右側のグループで真ん中は13なので、第3四分位数は13となります。
――――――――
では、今度は四分位範囲と四分位偏差について説明していきます。。
これはデータの散らばり度合いを示す値になります。
四分位範囲は、四分位数の中で一番大きい第3四分位数から、一番小さい第1四分位数を引いた数のことになります。図で示すとQ1からQ3までの範囲となります。
そして、四分位偏差は、この四分位範囲を2で割ったものになります。
式であらわすと、2分の(Q3―Q1)となります。
一番初めに求めた四分位数の例で、具体的数を当てはめていきましょう。
まず第3四分位数は10、第一四分位数は3なので
四分位範囲は10―3で7となります。
四分位偏差は四分位範囲を2でわったものなので2分の7で3.5となります。
この四分位数は箱ひげ図という図で表すことができます。
その名の通り、箱からヒゲが伸びた感じの図になります。
まず、箱の左側は第1四分位数を表しています。箱の右側は第三四分位数
箱の中にある線は、第2四分位数である中央値を表しています。
この図の中に平均値を表すことが可能、その場合は+の記号を書きます。
そしてヒゲの左端は最小値、ヒゲの右側は最大値を表しています。
箱ひげ図は、このような感じで、たて書きで表す場合もあります。
箱ひげ図には、外れ値というものが記述されていることがあります。
外れ値は、ばらつきを見るうえで、極端に小さな値や大きな値を分布の範囲から外だしにします。
外れ値は、四分位範囲の1.5倍を基準とします。
今回は四分位範囲は7なので、7×1.5は10.5
第3四分位数の10に10.5をプラスすると20.5となり、この20.5を超えるものは外れ値となります。
最小も同じように、第1四分位数の3から10.5をマイナスしたー7.5を下回るものは外れ値となります。
この図の中で最大値の右側に外れ値があった場合は、
外れ値以外の中で最大値という意味になります。
四分位数はエクセルの関数でも求めることができます。
熊谷市の最高気温のデータを利用して確認していきましょう。
気象庁のホームページから過去の気象データのダウンロードができます。
概要欄にもリンクを貼っておきます。
地点を選ぶで埼玉県の熊谷市を選択します。
項目を選ぶで、データの種類は日別値、気温タブの最高気温にチェックを入れます。
そして、期間を選ぶをクリックしてダウンロードし
期間は2017年と2018年の気温のデータを丸ごとダウンロードします。
落としたデータの7月1日から8月31日までのデータを抽出した表がこちらになります。
エクセル関数で最高、最低、四分位数、平均を求めていきます。
まずは最高は、MAX関数を使います。最高値を求めたい範囲を選ぶと、2017年は37.8 2018は41.1となります。
第3四分位数はQUARTILE.INC(クォータイル・ インクルーシブ)関数を使います。
範囲を指定して、第二引数は第3四分位数を意味する3を入れます。
小数点以下第二位を四捨五入して第一までの表示とすると
2017年は34.6 2018年は37.4 となります。
中央値はさっきのQUARTILE.でも可能ですが、今回はMEDIAN(メジアン)関数を使います。
2017年は32.2 2018は35.4となります。
第1四分位数は第3四分位数と同様にQUARTILE.INC(クォータイル・ インクルーシブ)を使います。範囲を指定して、第二引数は第1四分位数を意味する1を入れます。
2017年は29.1 2018は31.9となります。
最低は、MIN関数を使います。
範囲を指定すると、2017年は23 2018は23.4となります。
平均値はAVERAGE関数を使います。範囲を指定すると
2017年は31.7 2018年は34.3となります。
これを箱ひげ図でも表していきます。
2017年と2018年のデータを纏めて範囲指定します。この時日付を範囲指定すると上手くいかないので気を付けてください。
そして、挿入タブからおすすめグラフを選びます。
すべてのグラフのタブを選んで、メニューの中から箱ひげ図を選んでそのままOKをクリックします
箱ひげ図が表示されました。このグラフより2018年の方が全体的に気温が高くなっていることが分かります。
★機器の不具合などによりデータがずれたり、取得できなかったりしたりすることがあります。
測定値と真の値とのずれを誤差と言います。
また、何らか理由によりデータを取得できなかった場合のデータを欠損値といいます。
欠損値は、場合によっては、前後の値の平均値を使うなどで推測値として補うこともあります。
データによっては、今回の様な数値ではなく報告書や文書のアンケート、写真などの場合があります。
文章を解析して、単語や文節などの要素を取り出し、これらの出現頻度や関係性等から情報を読み解く技術を、テキストマイニングと言います。
――
★度数分布表とヒストグラム★
テストの成績の分布など、その点数の範囲に何人の人がいるかを表したりする表に、度数分布表があります。
この60点以上、69点以下の範囲に200人の人がいることが分かります。
度数分布表では、この何点から何点までなどの範囲を示すものを階級と言います。
そして、その範囲に属する人数や個数を表す値を度数と言います。
この度数分布表を棒グラフで表したものをヒストグラムと言います。
先ほどの箱ひげ図と対応づけると、視覚的に比較がしやすくなったりします。
★分散と標準偏差★
データの散らばり具合を表すものとして、分散と標準偏差があります。
たとえば、とあるクラスの情報と数学のテストの点数の一覧で確認していきましょう。
情報はパット見た目60点前後が多いように見えます。
数学は20~90点台まで色んな点数があります。
分散や標準偏差はこのような散らばり具合を数値で表わせます。
まずは、分散から説明します。
分散はデータ全体が平均値とどれくらいずれているかの度合いを数値化したものになります。
この情報も数学も平均点は60点です。
情報は60点前後が多く平均点からのずれが小さいデータになります。
数学は点数の幅が広く平均点からのずれが大きいデータになります。
まず情報のデータについて分散を求めていきます。
まず、それぞれの点数が平均点とどれくらいずれているかを書き出します。
たとえば 65点の場合は65―60で5となります。
55点のばあいは 55―60でー5となります。
求めた値をそれぞれ2乗して、データの個数で割ってあげます。
計算すると55.4となりこの値が分散になります。
数学も同様に計算すると分散は483.8となります。
数値が大きいほど平均点からのばらつきがあるので、この結果より数学の方がばらつきがあることが分かります。
この求めた分散の値にルートを付けます。これを標準偏差といいます。
小数点以下第二位を四捨五入すると、
情報の標準偏差は7.4 数学は22.0となります。
大学入試の模擬試験などで用いられる偏差値はこの標準偏差を元にして求めることができます。
50+(得点―平均値)÷標準偏差×10になります。
例えば 情報の得点65点だった場合で平均60点 標準偏差が7.4の場合
50+(65―60)÷7.4×10
偏差値は約56.8となります。
同じく数学の得点が65点だった場合で平均60点 標準偏差が22場合
50+(65―60)÷22×10
偏差値は約52.3 となります。
標準偏差が小さいほどばらつきが小さくなり、グラフで表すとこのような縦に長いものとなります。標準偏差が大きいほどばらつきが大きくなり、グラフは標準偏差が小さいものに比べて低く幅広くなります。
今話した内容を公式で表します。
標準偏差をσ(シグマ)、x1からxnはデータの値、エックスバーは平均値、nはデータの個数とすると
分散 σ2乗 は、各項目の平均との差分の2乗を足して、それをデータ個数のnで割ってあげます。
標準偏差はその分散の公式にルートを付けたものになるので、分散は標準偏差の2乗なのでルートの外に出すと標準偏差となります。
分散と標準偏差はエクセル関数でも求めることができます。
分散はVAR.P(バリアンス・ピー)関数を使います。
値の範囲を指定するとこのように分散が算出できます。
標準偏差はSTDEV.P(スタンダード・ディビエーション・ピー)関数で求めることができます。
値の範囲を指定するとこのように標準偏差が算出できます。
データ尺度
データは、大きく量的データと質的データに分けられます。
量的データは、数量的な意味があり計算が可能なものになります。
データの値を決める基準を尺度と言いますが、尺度によって細分化されます。
量的データの尺度は間隔尺度と比率尺度に分かれます。
間隔尺度は、西暦や気温のように、数値の間隔が数量として意味を持つ尺度になります。
比率尺度は、長さや年収と言った、数値の比にも数量として意味を持つことになります。
例えば、年収が1500万円の人は500万円の人の3倍の収入であるといった比率で表すことでも意味を成します。
質的データは、数量的な意味がなく分類として意味を持つものになります。
質的データの尺度には名義尺度と順序尺度があります。
名義尺度のデータは、数値としての意味を全く持たないデータで、例えば性別や血液型、好きな食べ物など、ことなる分類として区別することだけに意味を持つ尺度になります。
順序尺度は、通知表などの成績評価や、服のS、M、Lのサイズというように、分類の順序に意味を持つ尺度になります。
今日の授業は以上になります。最後までご視聴ありがとうございました。
【解説重要用語】
オープンデータ、四分位数、四分位範囲、四分位偏差、箱ひげ図、外れ値、誤差、欠損値、テキストマイニング、度数分布表、階級、度数、ヒストグラム、分散、標準偏差、偏差値、量的データ、間隔尺度、比率尺度、質的データ、名義尺度、順序尺度
★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。
【参考サイト・参考文献】
tkmium note(共通テスト対策・プログラミング・情報教育全般)
★情報関係基礎の過去問解説が充実しております!
https://tkmium.tech/
文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm
詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322
令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/
その他、情報処理技術者試験(全レベル1~4)/IT企業15年勤務(システム技術部 部長)経験から培った知識を交えながら解説しています。
かわいいフリー素材集 いらすとや (irasutoya.com)
https://www.irasutoya.com/