
3.データの分布
統計解析の手法は多種多様であり、中には前提条件を求める手法も存在します。そして、同条件の一つとして最も広く知られているものがデータの分布です。
例えば、統計解析手法の中において最も有名な位置づけにあるt検定や重回帰分析は、データが正規性分布に従うことを条件としています。また、ロジスティック分析のように、正規分布の他、二項分布やポアソン分布など、複数の分布からいずれかを選択できる統計解析手法も存在します。
このように、特定の分布に従うことを条件としている統計解析手法をパラメトリック手法といいます。それに対して、特定の分布に従うことを条件としない統計解析手法をノンパラメトリック手法といいます。
統計解析における分布は正しい結果を得るための道筋でもあるため、前提条件を満たしている場合、パラメトリック手法の方がノンパラメトリック手法よりも正確な解析を行うことが可能です。
しかし、前提条件を満たさない場合、パラメトリック手法を用いることが適切ではないケースが生まれます。その際にはノンパラメトリック手法を用いることになりますが、注意点として、ノンパラメトリック手法は分布の条件に左右されないものの、それは同手法が万能なのではなく、データの分布を考慮できないほどに精度が低い手法であるという点です。
また、特定の分布に従うことを条件としているパラメトリック手法ですが、厳密にはある程度の許容範囲が設けられています。その理由として、正規分布や二項分布などの分布はあくまで数学上の理想分布であるからです。
例えば、データが正規分布に従っているかどうかを検討する場合には、視覚的に歪度(分布の対称性)や尖度(分布の尖り具合)を考察する他、統計学的な適合度検定を行うことが一般的です。視覚的に分布の適合度の判断が難しい場合には、同検定によって判断を下すことを推奨します。
分布の適合度検定に関しては次回以降に解説するとして、本記事では代表的な分布の形と特徴を紹介します。


