見出し画像

統計学を装備する!12 〜正規分布-課題3〜

正規分布のついて課題を進める。(その2)
ちなみにこの課題はCHATGPTに「これが全部解けるなら正規分布を使いこなせると判断できるという課題を考えてくれ」と依頼して生成したもの。
あっ、、、、いや、、、なんやねん。


5. 社員の平均給与に関する評価

背景:
ある企業では、社員の給与が正規分布に従っているとされ、平均給与が500万円、標準偏差が50万円である。

課題:
5-1.年収が550万円以上の社員は全体の何%か?
5-2.年収が450万円から600万円の間に収まる社員の割合は何%か?
5-3.上位2.5%の高所得社員の年収は最低でも何万円か?

学習目標:
給与分布に基づいて、報酬に関する予測や分析を行う。

解く手順

1.Zスコアを求める。
2.求めたZスコアの値から累積分布関数(CDF)を使って計算する。
3.パーセント点関数(PPF)を使って計算する。

解く

課題5-1.年収が550万円以上の社員は全体の何%か?
Zスコア = (550-500) / 50 = 1  (550万円は平均年収500万円から標準偏差1個分上という意味)
CDF(1)  =  約0.8413 (Zスコアが1(550万円)以下である確率が約84.13%という意味)
すなわち、100%- 84.13%=約15.87% (答え)

課題5-2.年収が450万円から600万円の間に収まる社員の割合は何%か?
450万円のZスコア = (450-500) / 50 = -1
                      CDF(-1) = 約0.1587 (15.87%)
600万円のZスコア = (600-500) / 50 = 2
                      CDF(2) = 約0.9772 (97.72%)
すなわち、97.72% - 15.87% = 約81.85%  (答え)

課題5-3.上位2.5%の高所得社員の年収は最低でも何万円か?
全体の上位2.5% = 97.5パーセンタイル
PPF(0.975,500,50) = 約 598.0
上位2.5%の高所得社員の年収は最低でも約 598万円。(答え)


6. サーバーの稼働時間に関する分析

背景:
あるサーバーの稼働時間が正規分布に従っていると仮定する。平均稼働時間は12時間、標準偏差は1時間。

課題:
6-1.11時間未満の稼働時間となる確率はどのくらいか?
6-2.10時間から13時間の間で稼働する確率は何%か?
6-3.サーバーが14時間以上稼働する確率はどれくらいか?

学習目標:
サーバーのパフォーマンスや稼働時間に基づいて、安定性やリスクを評価する方法を学ぶ。

解く手順

1.Zスコアを求める。
2.求めたZスコアの値から累積分布関数(CDF)を使って計算する。

解く

課題6-1.11時間未満の稼働時間となる確率はどのくらいか?
Zスコア = (11-12) / 1 = -1
CDF(-1)  =  約0.1587
すなわち、約15.87% (答え)

課題6-2.10時間から13時間の間で稼働する確率は何%か?
10時間のZスコア = (10-12) / 1 = -2
                      CDF(-2) = 約0.0228 (2.28%)
13時間のZスコア = (13-12) / 1 = 1
                      CDF(1) = 約0.8413 (84.13%)
すなわち、84.13% - 2.28% = 約81.85%  (答え)

課題6-3.サーバーが14時間以上稼働する確率はどれくらいか?
Zスコア = (14-12) / 1 = 2
CDF(2)  =  約0.9772
すなわち、100%-97.72%=約2.28% (答え)


7. 投資のリスク管理

背景:
ある株式の1日のリターン(利益率)が正規分布に従っていると仮定する。平均リターンは0.5%、標準偏差は2%。

課題:
7-1.1日のリターンがマイナスになる確率はどれくらいか?
7-2.1日のリターンが1%から3%の間になる確率は何%か?
7-3.リターンが-5%以下になる確率はどのくらいか?

学習目標:
投資のリスクを評価し、リターンの確率的な分布に基づいた意思決定を行う。

解く手順

1.Zスコアを求める。
2.求めたZスコアの値から累積分布関数(CDF)を使って計算する。
3.パーセント点関数(PPF)を使って計算する。

解く

課題7-1.1日のリターンがマイナスになる確率はどれくらいか?
Zスコア = (0.0-0.5) / 2 = -0.25
CDF(-0.25)  =  約0.4013
すなわち、約740.13% (答え)

課題7-2.1日のリターンが1%から3%の間になる確率は何%か?
1%のZスコア = (1-0.5) / 2 = 0.25
                      CDF(0.25) = 約0.5987 (59.87%)
3%のZスコア = (3-0.5) / 2 = 1.25
                      CDF(1.25) = 約0.8944 (89.44%)
すなわち、89.44% - 59.87% = 約29.57%  (答え)

課題7-3.リターンが-5%以下になる確率はどのくらいか?
-5%のZスコア = (-5-0.5) / 2 = -2.75
                      CDF(-2.75) = 約0.0030 (0.3%)
すなわち、約0.3%  (答え)


Zスコアとは、正規分布における標準化された値であり、あるデータ点が算術平均からどれだけ離れているかを「標準偏差」を単位として表したもの。
Zスコアを使うことで、単位が異なる平均や標準偏差を持つデータセットを比較したり、特定の値が全体の中でどの位置にあるかを確認できる。

Zスコアの公式:

例えば、Zスコア=1とはXが標準偏差1つ分算術平均から上にあることを意味する。(Zスコア=-2だったら標準偏差2つ分算術平均から下)


累積分布関数(CDF)

累積分布関数(CDF: Cumulative Distribution Function)は、ある値以下の確率を求めるための関数です。正規分布において、あるZスコア以下の確率を調べるときに使われる。

具体的に「CDF(Z=2)」とは、「Zスコアが2以下の確率」を指します。つまり、Zスコアが2というのは、標準正規分布で平均から2標準偏差だけ上にある点を意味し、その点までの累積確率がどれだけかを示すもの。

累積分布関数の公式

正規分布累積分布関数の公式

この積分は、標準正規分布算術平均が0、標準偏差が1)の確率密度関数(PDF: Probability Density Function)を積分したもの。累積分布関数の結果は、あるZスコア以下の範囲にデータが入る確率を示す。実際にこの積分を手計算するのは非常に難しいため、ほとんどの場合、統計ソフトウェアやテーブルを使って計算する。尚、CHATGPに聞いても求められる。(CHATGPTがPythonを使用して求める)


パーセンタイル

パーセンタイルとは、データが並んでいる中で、特定の値が全体のどの位置にあるかを示す指標。たとえば、「95パーセンタイル」というのは、全体の95%がその値以下であることを意味する。
具体的には、試験で「95パーセンタイル」にあたる得点は、全体の95%の学生がそれ以下の得点を取っていて、上位5%の学生がそれ以上の得点を取るという意味になる。
パーセンタイルを求めるためには、累積分布関数(CDF)の逆関数を使う。この逆関数は パーセント点関数(PPF: Percent Point Function) と呼ばれ、これを使って特定のパーセンタイルに該当するスコアを計算できる。

例えばパーセント点関数(PPF)を使って、「パーセンタイルが95%に相当するスコア」を求めるための式は次のようになる:



さて、出された課題を一通り解いた。
解き方も書いておいたので、今後わからなくなったらここを見るか。
ただこの課題が全部ハルシネーションだったら爆笑ww
まあそのときは改めたらいいか。

この記事が気に入ったらサポートをしてみませんか?