尤度とは何でしょう ~What Is This Thing Called "Likelihood"~
はじめに
統計学の本を見ていると"尤度(ゆうど)"とか"対数尤度(たいすうゆうど)"という言葉が出てくることがあります。心理学の研究で普通にデータを分析している分には、そこまで意識する必要はないのかもしれませんが、なんとなく気になる言葉ではあります。今回は"尤度"について、具体的な例を使って、できるだけ直感的に説明して行きたいと思います。
テストの結果によるグループ分け
尤度の利用場面として、次のような例を考えます。
手始めに、去年のデータについて各問題のレベル別の正解率を表にまとめます。
上の表から、去年は、たとえば項目1について「上級」レベルでは70%、「通常」レベルでは60%の人が正解したことがわかります。
さて、ある学生Aの、この10項目に対する回答の正誤を判定したところ、次の表のようだったとします。
この正誤データから、学生Aが「上級」か「通常」か判定する、というのが、いま考えたい問題です。
そこで、仮に学生Aが「上級」だとしたら、上表のような正誤データが得られる可能性はどのくらいか計算してみます。
この際に、項目1から項目10のテスト問題は、次のような特別な関係をもつものは存在しないか、もし存在したとしても、その影響が小さく、項目が互いに独立していると仮定できる状態だとします(局所独立)。
最初の表から、レベルが「上級」の場合、1番目の項目に正解する確率は0.70、2番目に正解する確率は0.58でした。
3番目の項目に対する回答は誤答(✕)ですが、回答には正解と誤答の2パターンしかないので、この確率は 1から正解の確率0.35を引いて0.65 だと考えられます。
他の項目についても、同じように考えていくと、10項目に全体に対して学生Aの回答が得られる可能性は、
となります。
(ここで、項目別の正解確率が単純な掛け算となるために、先程の独立性の仮定が必要になってきます)
同様に、学生のレベルが「通常」だとすると、
最終的な計算結果は、学生のレベルが仮に「上級」だとすると0.020、「通常」だとすると0.004になりました。この結果から、この学生は「上級」である相対的な可能性がかなり高く,「上級」と判定して問題ないといえそうです。
実は、いま見てきた一連の推論の流れが最尤法と呼ばれるものです。学生のレベルを「上級」だと仮定した場合の計算結果0.020や、「通常」だと仮定した場合の計算結果0.004が尤度です。また、この値について対数(log)を取ったものが対数尤度です。対数を取る理由は、途中の計算において、いろいろメリットがあるためです。
尤度は『未知のパラメータ(ここでは学生のクラス)が"ある値(上級 or 通常)"だと仮定した場合にデータが得られる可能性』を計算したもので、アイデア自体はとても自然なものだと思います。
普通は「テストの合計点を利用してクラスを決める」というように、テストの結果⇒クラスわけの方向で物事を考えますが、尤度を使うときは仮の所属クラス⇒テストの結果が得られる可能性という方向で、通常とは逆向きにデータを取り扱うところが特徴です。
この記事が、少しでも参考になりましたら幸いです。
この記事が気に入ったらサポートをしてみませんか?