尤度(ゆうど)
こんにちは。コグラフ株式会社データアナリティクス事業部の塩見です。
データサイエンスの勉強をしていると、尤度(ゆうど)という言葉がよく登場します。インターネットで検索するといくつも解説が出てきます。
これらを読んで尤度とは何か理解できた方はそれで大丈夫です。この記事では、理解できなかった方のためにもっとわかりやすい説明に挑戦します。
ベルヌーイ分布
成功と失敗のような、二種類の値をとる現象を考えてください。ベルヌーイ分布はそのような現象を表現できる確率分布です。
$${\theta : }$$成功率
$${r=1: }$$成功、$${r=0: }$$失敗
として、変数$${r}$$を横軸に、確率$${p(r|\theta)}$$を縦軸にとると以下のような形をしています。$${p(r|\theta)}$$というのは条件付き確率で、「$${\theta}$$という条件が与えられた下での$${r}$$の確率」という意味です。確率分布なので、$${r}$$ごとの確率の合計は1になっています。
立体的に考える
ベルヌーイ分布を立体化しました。成功率$${\theta}$$を奥行方向の軸にとっています。$${\theta=0.8}$$で切断した面を示す黄色い線が、上図の$${\theta=0.8}$$と同じ形になっていますね。
rを固定する
次に、$${r}$$を固定します。つまりすでに観測された値であり、変数ではないと考えます。目印として$${r=1}$$と$${r=0}$$の切断面を黄色で示しておきます。
見方を変える
そして見方を変えましょう。ベルヌーイ分布をぐるっと回転させます。
これが尤度です
すると横軸が$${\theta}$$になりました。ここからは$${\theta}$$を変数だと考えましょう。これが尤度です。
つまり、ベルヌーイ分布$${p(r|\theta)}$$は
$${r}$$を変数として考えると条件付き分布
$${\theta}$$を変数として考えると尤度
なのです。
ベルヌーイ分布の尤度のグラフから、観測データ$${r}$$の値によって前提条件$${\theta}$$と尤度$${p(r|\theta)}$$の関係が異なることがわかります。したがって、この尤度という指標を使えば観測データから前提条件$${\theta}$$を推測できそうです。
補足説明
尤度は確率ではないということを補足しておきます。上のグラフ(ベルヌーイ分布の尤度)を見てください。グラフの面積が1ではないことがわかると思います。つまり尤度は確率ではありません。確率ではないことを明らかにするため、尤度$${p(r|\theta)}$$は$${L(\theta|r)}$$とか単に$${L(\theta)}$$と表記されます。
最尤推定
最後に最尤推定という手法を説明します。この手法は、観測データから尤度を求めて、尤度が最大になる$${\theta}$$を$${\theta}$$の推測値とします。
例えば、観測値が一つで$${r=0}$$のとき、尤度が最大となる$${\theta}$$は0ですから、$${\theta}$$の推測値は0です。同様に考えて、観測値が一つで$${r=1}$$の場合は$${\theta}$$の推測値は1です。
続いて観測値が二つで、$${r}$$が0、1という値だった場合を考えます。このような場合は$${r=0}$$の尤度$${1-\theta}$$と$${r=1}$$の尤度$${\theta}$$を掛けた$${(1-\theta)\theta}$$を尤度とし、それが最大となる$${\theta=0.5}$$を$${\theta}$$の推測値とするのです。
データ分析に興味のある方募集中!
コグラフ株式会社データアナリティクス事業部ではPythonやSQLの研修を行った後、実務に着手します。
研修内容の充実はもちろん、経験者に相談できる環境が備わっています。
このようにコグラフの研修には、実務を想定し着実にスキルアップを目指す環境があります。
興味がある方は、下記リンクよりお問い合わせください。
X(Twitter)もやってます!
コグラフデータ事業部ではX(Twitter)でも情報を発信しています。
データ分析に興味がある、データアナリストになりたい人など、ぜひフォローお願いします!
この記事が気に入ったらサポートをしてみませんか?