統計学を装備する！4 〜データ(代表値・平均・標準偏差)〜

2024年9月22日 16:13

度数分布表とヒストグラムからデータの特徴がわかるという。
どんな特徴？あれ？なんか古風にいきたい、、、

1.データの特徴には傾向と代表値という側面あり

傾向とは、データ全体の動きや分布の模様を指し、どこにデータが集まっているか、また如何にしてばらついているか、さらには偏りや広がりの様子を俯瞰するものなり。
傾向の具体例：
・データが左右対称か、片方に偏っているか。
・データがどこに集中しているか（中心があるのか、ばらつきがあるのか）。
・時系列データで、増加や減少のトレンドがあるか。
※トレンド:データが時間の経過に伴って変化するかということ。

代表値とは、その傾向の中から特に一つの数値を選び、データ全体を象徴するものなり。これは、データの中心を一言にて述べるためのものであり、まさにデータの顔役のような存在なり。代表値を通して、データの本質を簡潔に語ることができるものなり。
代表値には以下の種類あり。
・平均：全データの合計をデータ数で割ったもの。データの中心をよく表すけど、外れ値に弱い。
・中央値：データを並べたときの真ん中の値。外れ値に強い。
・最頻値：データの中で最も多く出現する値。カテゴリデータに使われることが多い。

2.平均

平均には算術平均、加重平均、幾何平均、移動平均なるものあり。
なお、これら平均は量的データ（比率データと間隔データ）にのみ用いるものなり。
算術平均
データを全部たしてデータ数で割ったものなり。
極端な値に影響を受けやすきものなり。10人おって9人が年収300～500万なのに１人だけ1億とかだったらこの10人の平均年収1000万越え。9人は「いやいやww」ってなるなり。
加重平均
各の数のごとくに、その値に重き（重み）をかけて、集め合わす法なり。すなわち、単なる平均の如くすべての値を等しく見ることなからず、それぞれの重みによりて、いと重要なりと思わるるものには大きくかけ合わせ、また、さほど重きを置かぬものには小さく重みを与えるなり。
重き（重み）をかけた値の合計をかけた重みの合計にて割るものなり。
重要なるものに大きく重みを与え、全体の値を決すること、まことに公正かつ合理的なる計算法なり。
また、階級値とその度数のみで平均を出さねばならぬ時にも使用するものなり。
幾何平均
データを全部かけあわせてデータ数分の根を取ったものなり。
極端な値の影響を抑えられる。データの成長や変動を公平に捉えるのに役立つものなり。
移動平均
時の経過に従い、数の変動を平らげ、長き期間における傾向を捉えるための法なり。この法は、常に一定の期間を選び、その期間内の値の平均を取りて、のち、その期間を一つずつ動かし、新たなる平均を求めるなり。これにより、短き時の変動に惑わされず、全体の動きを知ることができる術なり。
変動の影響を和らげつつ、全体の傾向を明確に捉えることができるなり。

3.ばらつき

諸々の平均を用いれども、なおその平均値をもってデータの特性を窺うには、未だ足らざるなり。それは平均といふもの、読んで字のごとく、ただ値を均しくするのみなれば、データのばらつきの程をば、その平均値より知ること能わざるゆえなり。よって、そのデータのばらつきの指標を数値により表し、データの特性をさらに知るべし。その指標とは、分散、標準偏差、そして変動係数なり。
分散
集められしデータの数々が、どれほどその平均値（算術平均）より離れしものか、その広がりの程度を測るための計算なり。
この分散を求むるに、まずは全ての値より算術平均を求め、その後、各の値がその平均値よりいかほど離れておるかを知るべく、差（偏差）の二乗を取り、それを集め合わせて全体の数で割るなり。これにより、データ全体のばらつきを示す一つの数が得らるる。

標準偏差
データが平均値からどれほどばりつきおるかを、より分かりやすき形にて表す指標なり。分散を元に、これを扱いやすくするために、その平方根を取り、元の単位に戻して表現したものなり。
標準偏差は、多くのデータが平均値の近くに集まりしを示すものなり。
以下に標準偏差の範囲をを示さん。
1標準偏差の範囲：データの約68%が、平均値から±1標準偏差の範囲に含まるるなり。例えば、標準偏差が60なる時は、平均から±60の範囲にデータの約68%が入っていることを意味す。
2標準偏差の範囲：データの約95%が、平均値から±2標準偏差の範囲に含まれる。これは、標準偏差が60なら、平均から±120の範囲にデータのほとんど（95%）が収まるといふことなり。
3標準偏差の範囲：データの約99.7%が、平均値から±3標準偏差の範囲に収まる。標準偏差が60の場合、平均から±180の範囲にほぼ全てのデータが含まるることを意味す。

変動係数
標準偏差を平均値（算術平均）にて割り、その比をもってデータのばらつきの度合いを相対的に示す指標なり。この値は、データの単位に依らず、異なる集団のばらつきを比較するに適す。すなわち、変動係数は標準偏差を相対的に見たものであり、平均値に対する標準偏差の割合を明らかにするものなり。
例えば、平均値が大きくとも標準偏差がそれに対して小さき時は、ばらつきが少なきものと判断されるなり。変動係数は、データの平均とばらつきの関係を知るために用いられ、同じ単位でないデータ同士の比較にも有用なり。」

4.質的データ(順位データ・カテゴリデータ)の代表値

順位データでは、中央値か最頻値を代表値として使う。中央値は順位データを順に並べた時の真ん中の値、最頻値は最も頻繁に出現する値。
カテゴリデータでは、最頻値を代表値として使う。最も頻繁に出現するカテゴリが代表値になる。

<追記>

なんか上記を後からみて思ったがデータ全体もデータ全体の個々のデータも「データ」って言ってるな。文章から全体なのか個々なのかわかるけどもなんか区別して使いたいな。、、と思い、CHATGPTにきいてみた。

データセット：全体のデータの集まり。
- 例：クラス全体の生徒のテスト点数。
観測値（データポイント）：データセットを構成する個々の値。
- 例：ある生徒のテスト点数。
変数：測定されている項目や属性。
- 例：テスト点数、身長、体重。
値：観測値における具体的な数値や値。
- 例：85点、170cm。
個体：データが収集された対象。
- 例：一人の生徒、一つの製品。

とのこと。できるだけ区別して使っていこう。