見出し画像

統計学を装備する!13 〜ポアソン分布〜

確率分布10傑の一つ、ポアソン分布を学ぶ。
概要を理解し、課題を作ってもらってそれを解いていく流れでいこう。
まずは概要。。。。あっ、、、西郷さぁ!



どんなやつ?

ポアソン分布っちゅうのは、ある一定の期間や空間において、めったに起こらん現象が何回起こるかっちゅうのをモデル化したもんじゃ。例えば、1時間に電話が何件かかってくるかとか、ある一定の道ば通る車の数とか、1ヶ月に船の部品が故障する回数とか、そういうのに使うっちゃが。


特徴はこんなこつ

λ(ラムダ)っちゅう値がキーポイントじゃ。これは、ある期間や空間で平均してどんくらいの頻度でその現象が起こるかっちゅう期待値(平均回数)じゃど。
ポアソン分布の面白かとこは、起こる回数はよう予測できんじゃっどん、その頻度はおおよそわかっちょっちゅう話じゃ。λ(ラムダ)がわかっちょれば、どんくらいの回数が起こる可能性が高いかも計算できっど。
ポアソン分布は、離散型データに使うもんじゃっど。つまり、ポアソン分布は「数えられる回数」や「頻度」を扱うっちゃが。


なぜ連続型データには使えない?

まず、ポアソン分布は「イベントの回数」を扱う分布じゃっど。たとえば、1時間に電話が何回かかってくるか、1ヶ月に事故が何回発生するか、こういうのは数えられる整数の回数じゃな。こうした回数は、離散型っちゅうふうに呼ばれちょって、整数で表せるっちゃが。

一方、連続型データは無限の値を取り得るデータじゃ。例えば時間や距離、体重、温度などじゃ。これらの値は、小数点以下いくらでも細かくできるっちゃろう?1.5秒とか、172.345センチとか。連続的に変化するデータじゃから、回数みたいに「数えられる」もんとは違うっちゃが。

ポアソン分布は「1回」「2回」「3回」といった整数回数のイベントの確率を計算するために設計されちょる。連続データの場合、「次の出来事がちょうど1.5回起こる」ちゅうような、小数の回数はありえんじゃろう?

たとえば、もしポアソン分布で「1時間に3.2回のイベントが起こる」なんて考えたら、どう数えるっか困るど。回数は整数でないと意味がなかから、ポアソン分布では小数のイベントの回数は扱えんというわけじゃ。
ポアソン分布が扱うのは、「ちょうどn回のイベントが起こる確率」じゃから、これが連続型データには適さん理由っちゅうこっじゃ。


使いどころ

ポアソン分布は、偶発的なイベントの頻度を予測するのに有効じゃ。現場や仕事で使うときにゃ、次のような場面で役立つど:

  1. システムの故障予測:例えば、1ヶ月に何回部品が故障するか見積もるときに使うど。故障する頻度が少なか場合、このポアソン分布がぴったりじゃ。

  2. 待ち行列予測:客がサービスを受けるために待つ時間や回数を予測するとき、これが役立つっちゃが。たとえば、レジでどのくらいの人が待つかの予測に使えるど。

  3. 災害や事故の発生頻度:ある場所で、例えば1年に何回事故が起こるかとか、そういう予測をするのに使えるっちゃな。


ポアソン分布の公式

1時間に電話が5回かかってくるというデータがあったとすっど。そしたらλは5じゃ。そいに基づいて、「じゃっどん1時間に6回かかってくっじゃなかか?」とか「3回しかかからんこっがあっどか?」ちゅう予測ができるわけじゃ。
1時間に電話が5回かかってくるちゅうのは、過去のデータをもとにしちょるっど。つまり、過去に何回電話がかかってきたかを観察して、その平均回数(λ = 5)を計算するわけじゃ。ポアソン分布λっちゅうのは、その観察データから得た「1時間あたりの平均回数」じゃど。
ほんで、過去のデータ(例えば、λ = 5)をもとにして、これからの予測ができるっちゅうこっじゃ。「次の1時間に3回しかかからんこつがあっどか?」とか「6回かかる可能性がどのくらいあるか?」を知りたかときに、ポアソン分布の確率質量関数(PMF)の公式を使って計算できるど。

各パラメータの説明:
𝑃 ( 𝑋 = 𝑘 ) : k 回のイベントが発生する確率
 λ : 一定期間内に平均して発生するイベントの回数(平均発生率)
 k : 起こるイベントの回数(非負の整数)
 e : 自然対数の底(約2.718)
 k! : k の階乗

ここで、λ = 5, k = 3っちゅうのを代入して計算すれば、「1時間に電話が3回かかってくる確率」が求められるど。
このポアソン分布の確率質量関数(PMF)も手計算は大変なのでソフトウェア使って計算させるのが一般的じゃっと。CHATGPTに聞くのもありじゃ。


ポアソン分布と正規分布の関係

  • ポアソン分布:「離散的なイベントの回数」をモデル化するときに使う。1時間に何回電話がかかってくるかとか、何回事故が起こるかっちゅう、整数で表される頻度の問題に適しちょるっど。つまり、数えられる回数を扱う場合じゃ。

  • 正規分布:正規分布は、あるデータが平均値のまわりでどのように分布するかを示すもんじゃ。平均に近い値が起こりやすく、遠ざかるほど起こりにくくなる形をしちょる。これは連続データ(例:測定値やスコア)に適していて、特にデータが対称的に分布する場合に使うど。正規分布は、無限の可能な値を取るデータに適している。

面白いことに、λ(ラムダ)が十分に大きくなると、ポアソン分布正規分布に近づくちゅう性質があるど。たとえば、λが100とか200みたいに大きくなると、電話の回数みたいな離散データでも、正規分布を近似して使うことができる場合があるっちゃが。じゃっどん、λが小さい場合(例えばλが5とか10の時)は、ポアソン分布の方がより正確じゃ。


さあ次回は課題じゃっど!いっど!!

この記事が気に入ったらサポートをしてみませんか?