パレート分布とパレートの法則の関係について調べてみた(統計検定1級(R)の出題を題材に)
はじめに
2023年の統計検定1級(R) 統計応用 社会科学 問2にてパレート分布に関する問題が出題され、パレートの法則との関連について問われているものでした。面白い問題だと思いましたので、自力で解いてみて色々と行間を埋めることができました。正式な解答が出るまでの繋ぎとして、将来的な受験者のお役立ちのために筆者独自に詳細かつ少し脱線した解答を残しておきたいと思います。
問題と公式略解は公式ホームページに掲載されていますので、各自でご確認ください。この記事には著作権の関係でそれらの画像を載せることはしません。また、将来的に削除される可能性があるので、各自ダウンロードしておくなどしておいてください。
問題:https://www.toukei-kentei.jp/wp-content/uploads/202311grade1ouyo-20240105141330-20240105141330.pdf
パレートの法則とは
「80:20の法則」というものを聞いたことがある方も多いと思いますが、これがパレートの法則と呼ばれるものです。
例えば、「売上全体の80%は、全社員の内(上位)20%が生み出している」というようなものです。(言い換えると、残りの売上全体の20%は、残りの下位80%の社員が生み出しているとも言える)
詳細はWikipediaを見てください。
今回、これに関する内容をパレート分布を解きほぐしながら、パレートの法則について見ていくという内容になっています。
実際の問題を解いていく
ここからは出題された問題を見ていきましょう。
(1)
パレート分布の基本的な性質に関する問題です。期待値、累積分布関数と中央値になる$${x}$$を求めます。ごくごく基本的な計算をしていきます。
(1)解答
最初に期待値$${E[X]}$$を求めます。
$$
\begin{array}{}
E[X]
&=& \displaystyle \int_{b}^{\infty} xf(x) dx \\\
&=& \displaystyle \int_{b}^{\infty} x\frac{ab^{a}}{x^{a+1}}dx \\\
&=& \displaystyle \int_{b}^{\infty} \frac{ab^{a}}{x^{a}}dx \\\
&=& \begin{cases} \displaystyle \left[ -\frac{ab^{a}}{(a-1)x^{a-1}} \right]_b^{\infty} & ( a \ne 1) \\ \displaystyle \left[ b\ln x \right]_b^{\infty} & (a=1) \end{cases} \\\
&=& \begin{cases} \displaystyle \infty & (a \le 1) \\ \displaystyle 0-(-\frac{ab^{a}}{(a-1)b^{a-1}}) & (a > 1) \end{cases} \\\
&=& \begin{cases} \infty & (a \le 1) \\ \displaystyle \frac{ab}{a-1} & (a > 1) \end{cases}
\end{array}
$$
この問題では$${a}$$の範囲について正の数以外の情報は無いので、厳密に書くとすると上記のように記述する必要があります。略解は発散する部分については記述無しなので、実際の記述で書かれていなかったとしても減点対象にはならないかと思います。
次に累積確率分布$${F(x)}$$を求めます。ただし、上で見たように期待値が発散する状況は考えても旨味は無いので、$${a>1}$$のケースを前提に話を進めます。
$$
\begin{array}{}
F(X)
&=& \displaystyle \int_{b}^{x} f(t) dt \\\
&=& \displaystyle \int_{b}^{x} \frac{ab^{a}}{t^{a+1}}dt \\\
&=& \displaystyle \left[ -\frac{b^{a}}{t^{a}} \right]_b^x \\\
&=& \displaystyle 1- \left( \frac{b}{x} \right)^{a}
\end{array}
$$
累積確率分布が求まれば、中央値は簡単です。$${\displaystyle F(x)=\frac{1}{2}}$$となる$${x_{median}}$$を求めればOKです。
$$
\begin{array}{}
&& \displaystyle \frac{1}{2} = 1- \left( \frac{b}{x_{median}} \right)^{a} \\
&\iff& \left( \frac{b}{x_{median}} \right)^{a} = \frac{1}{2} \\
&\iff& x_{median}^a = 2b^a \\
&\iff& \displaystyle x_{median}=2^{\frac{1}{a}}b
\end{array}
$$
出題にはなっていないですが、計算練習も兼ねて分散を計算してみることをおススメします。
(2)
パレート分布の条件付き確率に関する性質を示す問題です。分布の下限を限定した場合の条件付き確率分布を求めると、その下限値でパレート分布のパラメーターが書き換わるという面白い性質です。
パレート分布の2つのパラメーターには$${a}$$が分布の形状を決める形状パラメーターと、$${b}$$が分布の最低値を決めるパラメーターとしての役割があります。最低値を変えることで、その条件付き確率のパラメーターも変更されることを確かめる証明になっています。
(2)解答
まずは$${P(X>c)}$$を先に求めておきましょう。
$$
\begin{array}{}
\displaystyle P(X>c) &=& 1-P(X \le c) \\\
&=& 1 - F(c) \\\
&=& \displaystyle 1 - (1-\left( \frac{b}{c} \right)^{a} ) \\\
&=& \displaystyle \left( \frac{b}{c} \right)^{a}
\end{array}
$$
これを使って、条件付き確率の計算ルールに則って求めてみます。
$$
\begin{array}{}
\displaystyle f(x | x>c) &=& \displaystyle \frac{f(x)}{P(X > c)} \\\
&=& \displaystyle \frac{1}{P(X > c)} \frac{ab^a}{x^{a+1}} \\\
&=& \displaystyle \frac{1}{\left( \frac{b}{c} \right)^{a}} \frac{ab^a}{x^{a+1}} \\\
&=& \displaystyle \frac{c^a}{b^{a}} \frac{ab^a}{x^{a+1}} \\\
&=& \displaystyle \frac{ac^a}{x^{a+1}}
\end{array}
$$
結果として、$${f(x | x>c) \sim Parate(a,c)}$$という関係性が証明できました。
(3)
いよいよ、パレート分布を使ってパレートの法則が成り立つための条件を求める問題です。これがこの大問のメインテーマでした。
問題では、$${b=1}$$という条件が与えれていますが、ここではあえて一般の$${b}$$のまま解いてみたいと思います。
(3)解答
まずは上位20%となる$${x}$$の値を$${x_{0.2}}$$と置いてその値を求めます。これは上側20%点を求めることに相当します。
$$
\begin{array}{}
&& \displaystyle P(x>x_{0.2})=\frac{1}{5} \\\
&\iff& 1-P(x \le x_{0.2}) = \frac{1}{5} \\\
&\iff& 1-F(x_{0.2}) = \frac{1}{5} \\\
&\iff& 1 - \left(1-\left( \frac{b}{x_{0.2}} \right)^{a} \right) = \frac{1}{5} \\\
&\iff& \left( \frac{b}{x_{0.2}} \right)^{a} = \frac{1}{5} \\\
&\iff& x_{0.2}^a = 5b^a \\\
&\iff& x_{0.2} = 5^{\frac{1}{a}}b
\end{array}
$$
次に上側20%以内の人たちは総量全体の80%を占めるというパレートの法則を思い出します。総量全体は(1)で求めた期待値に相当します。
$$
\displaystyle E[X|X>x_{0.2}] = \frac{4}{5}E[X]
$$
という関係があることを示唆しています。では左辺を求めてみましょう。
$$
\begin{array}{}
\displaystyle E[X|X>x_{0.2}] &=& \displaystyle \int_{x_{0.2}}^{\infty} xf(x)dx \\\
&=& \displaystyle \int_{x_{0.2}}^{\infty} x\frac{ab^{a}}{x^{x^{a+1}}} dx \\\
&=& \displaystyle \int_{x_{0.2}}^{\infty} \frac{ab^{a}}{x^{a}} dx \\\
&=& \displaystyle ab^{a}\int_{x_{0.2}}^{\infty} \frac{1}{x^{a}} dx \\\
&=& \displaystyle \left[ -\frac{ab^{a}}{(a-1)x^{a-1}} \right]_{x_{0.2}}^{\infty} \\\
&=& \displaystyle 0 - \left(-\frac{ab^{a}}{(a-1)x_{0.2}^{a-1}} \right) \\\
&=& \displaystyle \frac{ab^{a}}{5^{\frac{a-1}{a}}(a-1)b^{a-1}} \\\
&=& \displaystyle \frac{ab}{5^{\frac{a-1}{a}}(a-1)} \\\
\end{array}
$$
(1)で求めた結果と、ここで求めた結果を使って$${a}$$を求めてみます。
$$
\begin{array}{}
&& \displaystyle E[X|X>x_{0.2}] = \frac{4}{5}E[X] \\\
&\iff& \displaystyle \frac{ab}{5^{\frac{a-1}{a}}(a-1)} =\frac{4}{5} \frac{ab}{a-1} \\\
&\iff& \displaystyle 5^{-\frac{a-1}{a}}=\frac{4}{5} \\\
&\iff& \displaystyle 5^{1-\frac{a-1}{a}}=4 \\\
&\iff& \displaystyle 5^{\frac{1}{a}}=4 \\\
&\iff& \displaystyle \ln 5^{\frac{1}{a}}=\ln 4 \\\
&\iff& \displaystyle \frac{1}{a} \ln 5=\ln 4 \\\
&\iff& \displaystyle a =\frac{\ln 5}{\ln 4} \\\
\end{array}
$$
となり、$${a}$$の値が$${b}$$に寄らず一意に決まることが確認できました。問題の$${b=1}$$には深い意味は無く、単に計算を楽にしてもらうための配慮と思われますので、出題者の優しさが滲み出ていることがわかりました。
ちなみに$${\displaystyle \frac{\ln 5}{\ln 4} \sim 1.16096404744}$$となります。パレートの法則が$${a}$$の値が$${b}$$によらないというのは中々面白い性質で、パラメーター$${a}$$が分布の形状を決めるのであってそれが相似形のような形になっているということに依存しているためと考えられます。その結果から、パレートの法則は決まった形状のみでしか成り立たないということも示唆しています。パラメーター$${a}$$が変わると、パレートの法則に出てくる割合(80:20)が変わることも併せて意味していると言えます。
(4)
最後の問題です。(3)の結果を使って、実際のシーンに当てはめてとどのような結果になるかを具体的な数値を使って算出する問題になります。
(4)解答
(3)で求めた$${x_{0.2}}$$に、$${\displaystyle a=\frac{\ln 5}{\ln 4}}$$と$${b=1}$$を代入すれば、上位20%の人の契約獲得金額が求められます。
$$
\displaystyle x_{0.2} = 5^{\frac{\ln 4}{\ln 5}} = \left( e^{\ln 5} \right)^{\frac{\ln 4}{\ln 5}} =e^{\ln 5 \times \frac{\ln 4}{\ln 5}}=e^{\ln 4} = 4
$$
なので、上位20%にいる人の契約獲得金額は400万円というのが答えになり、400万円以上稼いでいる人は表彰の対象となります。
次に、更にその中で上位20%、つまり全体の中で上位4%の人がどれくらいになるかを計算してみます。ただし、ここではこれまでに出てきた道具を使って計算を簡略化してみます。
(2)で下限の範囲を変えると同じ構造のパレート分布が出てくることを見ました。これを使いましょう。具体的には$${c=4}$$とすることで、400万円以上の人に限定して考えることができます。そして、その中で20%ということは$${x_{0.2}}$$の式を再利用できます。つまり、$${b}$$の部分を$${c}$$に置き換えて計算すれば良いということになります。すなわち
$$
\displaystyle x_{0.04} = 5^{\frac{1}{a}}c = 5^{\frac{\ln 4}{\ln 5}} \times 4=e^{\ln 5\times \frac{\ln 4}{\ln 5}}\times4 = e^{\ln 4} \times4= 4 \times4 =16
$$
となり、上位4%の人たちは1600万以上の契約金額を勝ち取っているということになります。
まとめ
2023年の問題の中では一番面白そうだと思って解いた問題ですが、思った以上に学びがありました。パレート分布の性質やパレートの法則がどのような条件で導かれるのかを知ることができて良かったです。パレートの法則の割合を変えたバージョンも探してみると思わぬ発見があるかも?