統計学を装備する!11 〜正規分布-課題2〜
正規分布のついて課題を進める。
ちなみにこの課題はCHATGPTに「これが全部解けるなら正規分布を使いこなせると判断できるという課題を考えてくれ」と依頼して生成したもの。
あっ、、、、いやまだええねん。
2. 顧客サービスにおける対応時間
シナリオ:
あるコールセンターでは、顧客対応時間が正規分布に従うとされている。平均対応時間は8分、標準偏差は2分。
課題:
2-1.対応時間が5分以下になる確率は何%か?
2-2.対応時間が10分から12分の間になる確率は何%か?
2-3.対応時間が15分を超えるケースが発生する確率はどのくらいか?
学習目標:
平均値や標準偏差に基づいた確率を計算し、特定の範囲に収まるデータの割合を導き出す。
解く手順
1.Zスコアを求める。
2.求めたZスコアの値から累積分布関数(CDF)を使って計算する。
解く
課題2-1.対応時間が5分以下になる確率は何%か?
Zスコア = (5-8) / 2 = -1.5 (5分は平均対応時間8分から標準偏差1.5個分下という意味)
CDF(-1.5) = 約0.0668 (Zスコアが1.5(対応時間5分)以下である確率が約6.68%という意味)
すなわち、応時間が5分以下になる確率は 約6.68% (答え)
課題2-2.対応時間が10分から12分の間になる確率は何%か?
対応時間10分のZスコア = (10-8) / 2 = 1
CDF(1) = 約0.8413
対応時間12分のZスコア = (12-8) / 2 = 2
CDF(2) = 約0.9772
すなわち、97.72% - 84.13% = 約13.59% (答え)
課題2-3.対応時間が15分を超えるケースが発生する確率はどのくらいか?
Zスコア = (15-8) / 2 = 3.5
CDF(3.5) = 約0.99977 (99.977%)
すなわち、100%-99.977% = 約0.023% (答え)
3. 商品在庫の需要予測
シナリオ:
ある店舗では、特定の商品が1週間で販売される数が正規分布に従うことが過去のデータから分かっている。平均販売数は100個、標準偏差は15個。
課題:
3-1.次の1週間で90個以上販売される確率は何%か?
3-2.85個から110個の範囲で販売される確率は何%か?
3-3.次の1週間で150個以上販売される可能性はどのくらいか?
学習目標:
正規分布に基づいた販売予測を行い、在庫管理や発注計画に活用する。
解く手順
1.Zスコアを求める。
2.求めたZスコアの値から累積分布関数(CDF)を使って計算する。
解く
課題3-1.次の1週間で90個以上販売される確率は何%か?
Zスコア = (90-100) / 15 = -0.67
CDF(-0.67) = 約0.2514
すなわち、 100%-25.14% = 約74.86(答え)
課題3-2.85個から110個の範囲で販売される確率は何%か?
対応時間10分のZスコア = (85-100) / 15 = -1
CDF(-1) = 約0.1587
対応時間12分のZスコア = (110-100) / 15 = 0.67
CDF(0.67) = 約0.7486
すなわち、74.86% - 15.87% = 約58.99% (答え)
課題3-3.次の1週間で150個以上販売される可能性はどのくらいか?
Zスコア = (150-100) / 15 = 3.33
CDF(3.33) = 約0.9996 (99.96%)
すなわち、100%-99.96% = 約0.04% (答え)
4. テストのスコア分析
背景:
ある試験の得点は正規分布に従うとされており、平均点は70点、標準偏差は10点である。
課題:
4-1.試験で80点以上を取る学生は全体の何%か?
4-2.60点から75点の間に得点する学生の割合はどのくらいか?
4-3..全体の上位5%の学生は何点以上のスコアを取っているか?
学習目標:
正規分布を使って特定の得点範囲内の人数割合を計算するだけでなく、パーセンタイルの概念を学ぶ。
解く手順
1.Zスコアを求める。
2.求めたZスコアの値から累積分布関数(CDF)を使って計算する。
3.パーセント点関数(PPF)を使って計算する。
解く
課題4-1.試験で80点以上を取る学生は全体の何%か?
Zスコア = (80-70) / 10 = 1
CDF(1) = 約0.8413
すなわち、 100%-84.13% = 約15.87(答え)
課題4-2.85個から110個の範囲で販売される確率は何%か?
60点のZスコア = (60-70) / 10 = -1
CDF(-1) = 約0.1587
75点のZスコア = (75-70) / 10 = 0.5
CDF(0.5) = 約0.6915
すなわち、69.15% - 15.87% = 約53.28% (答え)
課題4-3.全体の上位5%の学生は何点以上のスコアを取っているか?
全体の上位5% = 95パーセンタイル
PPF(0.95,70,10) = 約86.45
全体の上位5%の学生は、約86.45点以上を取っている。(答え)
Zスコア
Zスコアとは、正規分布における標準化された値であり、あるデータ点が算術平均からどれだけ離れているかを「標準偏差」を単位として表したもの。
Zスコアを使うことで、単位が異なる平均や標準偏差を持つデータセットを比較したり、特定の値が全体の中でどの位置にあるかを確認できる。
Zスコアの公式:
例えば、Zスコア=1とはXが標準偏差1つ分算術平均から上にあることを意味する。(Zスコア=-2だったら標準偏差2つ分算術平均から下)
累積分布関数(CDF)
累積分布関数(CDF: Cumulative Distribution Function)は、ある値以下の確率を求めるための関数です。正規分布において、あるZスコア以下の確率を調べるときに使われる。
具体的に「CDF(Z=2)」とは、「Zスコアが2以下の確率」を指します。つまり、Zスコアが2というのは、標準正規分布で平均から2標準偏差だけ上にある点を意味し、その点までの累積確率がどれだけかを示すもの。
累積分布関数の公式
正規分布の累積分布関数の公式
この積分は、標準正規分布(算術平均が0、標準偏差が1)の確率密度関数(PDF: Probability Density Function)を積分したもの。累積分布関数の結果は、あるZスコア以下の範囲にデータが入る確率を示す。実際にこの積分を手計算するのは非常に難しいため、ほとんどの場合、統計ソフトウェアやテーブルを使って計算する。尚、CHATGPに聞いても求められる。(CHATGPTがPythonを使用して求める)
パーセンタイル
パーセンタイルとは、データが並んでいる中で、特定の値が全体のどの位置にあるかを示す指標。たとえば、「95パーセンタイル」というのは、全体の95%がその値以下であることを意味する。
具体的には、試験で「95パーセンタイル」にあたる得点は、全体の95%の学生がそれ以下の得点を取っていて、上位5%の学生がそれ以上の得点を取るという意味になる。
パーセンタイルを求めるためには、累積分布関数(CDF)の逆関数を使う。この逆関数は パーセント点関数(PPF: Percent Point Function) と呼ばれ、これを使って特定のパーセンタイルに該当するスコアを計算できる。
例えばパーセント点関数(PPF)を使って、「パーセンタイルが95%に相当するスコア」を求めるための式は次のようになる: