見出し画像

「二項分布の補累積分布関数」とF分布の関係

2024/04/14(日)実施の数学検定1級の2次試験で、「二項分布の補累積分布関数($${P(X \geqq k)}$$)の値をF分布を利用して考える」と言う話題が出題されました(原題は仮説検定の問題)。これについては、「そもそもそんな話、知らない」と言う方も多いかと思います。そこで、今回は、このことをできるだけ分かりやすく解説したいと思います。実際の試験問題を掲載することは禁じられているので、そのエッセンスだけ取り出したものを考えてみましょう。

[問題]
確率変数$${X}$$が二項分布$${\displaystyle Bin\left( 20,\frac{1}{5} \right)}$$に従うとき、$${P(X \geqq 6)}$$と$${0.05}$$の大小をF分布を利用して判定せよ。

二項分布$${\displaystyle Bin\left( 20,\frac{1}{5} \right)}$$の定義に従って$${P(X \geqq 6)}$$を立式すると、次の通りです。
   $${\displaystyle P(X \geqq 6)=\sum_{k=6}^{20} {}_{20} \mathrm{C}_k \left( \frac{1}{5} \right)^k \left( \frac{4}{5} \right)^{20-k}}$$
これを計算すると
   $${\displaystyle \frac{18672200635953}{95367431640625}=0.19579221454045052928}$$
です(有限小数です)。これより、$${P(X \geqq 6)>0.05}$$と分かります。
ただ、この計算を試験場で行うことは現実的ではないでしょう。上に書いた計算は、もちろんPCを用いて行っています。

以下、この問題を「手計算+F分布の表」を用いて解くことを考えます。もっとも、問題文の「F分布を利用して」の意味が分からない、と言う方は多いのではないでしょうか。$${P(X \geqq 6)}$$の計算でどのようにF分布を用いれば良いのか、できるだけ分かりやすく解説していきます。

F分布については、以下を参照してください。

この問題を一般化し、二項分布$${Bin(n,p)}$$に従う確率変数$${X}$$に対し、$${P(X \geqq k)~(k=0,1,2,\cdots,n)}$$を求めることを考えます。

まず、以下が成り立ちます。

(1) $${\displaystyle P(X \geqq k)=\frac{n!}{(k-1)!(n-k)!}\int_{0}^p x^{k-1}(1-x)^{n-k}~dx}$$

この証明については以下をお読みください。右辺を部分積分の反復で計算する方針や、一様分布と順序統計量を用いる方針などがあります(後者だと一発で示せる!)。

問題冊子には、F分布(第$${1}$$自由度が$${5,10,15,20,25,30,35,40}$$、第$${2}$$自由度が$${1,2,\cdots,40}$$)の上側$${0.05}$$点の表が掲載されています。そこで、(1)の右辺を変形してこの表が利用できるようにしましょう。
唐突ですが、$${m_1=2k,m_2=2(n-k+1)}$$とおきます。(1)の右辺の積分において$${\displaystyle x=\frac{m_1y}{m_1y+m_2}}$$とおくと、この積分($${\displaystyle \frac{n!}{(k-1)!(n-k)!}}$$より後ろの部分)は次のようになります。
 $${\displaystyle \int_{0}^{\large\frac{m_2p}{m_1(1-p)}} \left(\frac{m_1y}{m_1y+m_2}\right)^{k-1}\left(\frac{m_2}{m_1y+m_2}\right)^{n-k}\cdot\frac{m_1m_2}{(m_1y+m_2)^2}~dy}$$
$${=\displaystyle\int_{0}^{\large\frac{m_2p}{m_1(1-p)}} \left(\frac{m_1y}{m_1y+m_2}\right)^{m_1/2}\left(\frac{m_2}{m_1y+m_2}\right)^{m_2/2}\cdot\frac{1}{y}~dy}$$
また、
 $${\displaystyle \frac{n!}{(k-1)!(n-k)!}= \frac{((m_1+m_2)/2-1)!}{(m_1/2-1)!(m_2/2-1)!}=\frac{1}{B(m_1/2,m_2/2)}}$$
です。ここで、正の定数$${\alpha,\beta}$$に対して、$${B(\alpha,\beta)}$$はベータ関数 $${\displaystyle \int_{0}^1 x^{\alpha-1}(1-x)^{\beta-1}~dx}$$です。

以上より、(1)は次のようになります。

(2) $${\displaystyle P(X \geqq k)=\frac{1}{B(m_1/2,m_2/2)}\int_{0}^{\large\frac{m_2p}{m_1(1-p)}} \left(\frac{m_1y}{m_1y+m_2}\right)^{m_1/2}\left(\frac{m_2}{m_1y+m_2}\right)^{m_2/2}\cdot\frac{1}{y}~dy}$$

ここで、自由度が$${(d_1,d_2)}$$であるF分布に従う確率変数$${F_{\large d_1,d_2}}$$の確率密度関数は
 $${\displaystyle f_{F_{\large d_1,d_2}}(y)=\frac{1}{B(d_1/2,d_2/2)}\left(\frac{d_1y}{d_1y+d_2}\right)^{d_1/2}\left(\frac{d_2}{d_1y+d_2}\right)^{d_2/2}\cdot\frac{1}{y}~(y>0)}$$
です。これより、(2)の左辺は$${\displaystyle P \left( 0< F_{\large m_1,m_2} \leqq \frac{m_2p}{m_1(1-p)} \right)}$$となるので、(2)は次のように書き換えられます。

(3) $${\displaystyle P(X \geqq k)=P \left( 0< F_{\large m_1,m_2} \leqq \frac{m_2p}{m_1(1-p)} \right)}$$

式の右辺がF分布を用いて表せました。
ただ、$${\displaystyle m_1=2 \times 6=12,m_2=2(20-6+1)=30}$$なので、問題冊子に掲載されているF分布表は使えません(第$${1}$$自由度が$${5,10,15,20,25,30,35,40}$$、第$${2}$$自由度が$${1,2,\cdots,40}$$の上側$${0.05}$$点の表なので)。そこで、この表が使えるように(3)の右辺を変形しましょう。
自由度$${(d_1,d_2)}$$であるF分布に従う確率変数$${F_{\large d_1,d_2}}$$の逆数は、自由度$${(d_2,d_1)}$$のF分布に従います。これは、例えば$${\displaystyle F_{\large d_1,d_2}}$$が$${\displaystyle \frac{U_1/d_1}{U_2/d_2}}$$($${U_1,U_2}$$は独立でそれぞれ自由度$${d_1,d_2}$$のカイ二乗分布に従う)と表せることを利用すると、簡単に示せます。

これより、(3)は

(4) $${\displaystyle P(X \geqq k)=P \left( F_{\large m_2,m_1} \geqq \frac{m_1(1-p)}{m_2p} \right)}$$

となります。
$${\displaystyle m_2=30,m_1=12}$$なので、問題冊子のF分布の表が使えますね!(第$${1}$$自由度が$${5,10,15,20,25,30,35,40}$$、第$${2}$$自由度が$${1,2,\cdots,40}$$の上側$${0.05}$$点の表です)
第$${1}$$自由度が$${m_2=30}$$、第$${2}$$自由度が$${m_1=12}$$のF分布の上側$${0.05}$$点をF分布表から求めると、$${2.466}$$です。これと$${\displaystyle \frac{m_1(1-p)}{m_2p}=1.6}$$の大小を比べると、前者が後者よりも大きいです。よって、$${P(X \geqq 6)>0.05}$$と分かりました。

■統計の本を何冊か調べましたが、この方法が載っているものはありませんでした。数検1級2次試験での正答率が気になるところです(かなり低いのでは?)。


■平成19年(2007年)のアクチュアリー試験(数学)で、この話題が出題されています(P10~11)。

https://www.actuaries.jp/lib/collection/books/H19/H19A.pdf


いいなと思ったら応援しよう!