正規性の適合の問題

2024年10月16日 12:10

正規性適合度検定（Shapiro-Wilk）のp値が＜0.05だった場合は、正規性なしという理解であってますでしょうか？

はい、その理解で合っています。Shapiro-Wilk検定において、p値が0.05未満の場合は、データが正規分布に従っていない（正規性がない）と判断します。これは、検定の帰無仮説が「データは正規分布に従う」というものであり、p値が小さいほど帰無仮説を棄却する根拠が強くなるためです。

正規性が見られない場合は、必ずノンパラメトリックな検定を採用すべきでしょうが？

必ずしもノンパラメトリックな検定を採用しなければならないわけではありませんが、正規性が見られない場合にはノンパラメトリックな検定のほうが適切であることが多いです。以下の点を考慮する必要があります。

サンプルサイズ: サンプルサイズが大きい場合、正規性の仮定が多少崩れていてもパラメトリックな検定（例: t検定）は比較的頑健です。サンプルサイズが小さい場合は、データが正規分布に従わないとパラメトリックな検定の結果が信頼できなくなる可能性が高まります。
データの分布の歪み: データが大きく歪んでいる場合や極端なアウトライアーが存在する場合には、ノンパラメトリック検定（例: Mann-Whitney U検定、Wilcoxon検定）のほうが適切です。
変換の適用: データが正規性を満たさない場合でも、対数変換や平方根変換などを試みて正規性を改善することができます。変換後に正規性が確認できれば、パラメトリック検定を使用することも可能です。

結論として、正規性が見られない場合にはノンパラメトリックな検定を検討すべきですが、サンプルサイズやデータの特徴によっては、パラメトリックな手法を適用する余地もあります。

対数変換や平方根変換を行い、パラメトリックな解析を行うことが適切であるということを、どうやって説明しましょうか？

対数変換や平方根変換を行ってパラメトリックな解析を適用することの適切さを説明するためには、以下のポイントを押さえるとよいでしょう。

1. パラメトリック手法の前提条件を満たすため

パラメトリック手法（例: t検定、分散分析）は、データが正規分布に従うことを前提としています。しかし、実際のデータはこの前提を満たさないことがあり、特に歪みが強い場合や外れ値が多い場合にその傾向が顕著です。
対数変換や平方根変換などの変換手法は、データの分布を「近似的に正規分布に近づける」ために用いられます。これにより、パラメトリック手法の適用が正当化され、より信頼性のある結果が得られます。

2. 変換によるデータの性質の改善

データに変換を施すと、元々の分布の歪みが緩和され、データのばらつきが縮小することがあります。これにより、平均値や分散の比較が適切に行えるようになり、解析結果の解釈がしやすくなります。
例えば、対数変換は、変動の大きなデータを相対的に平滑化する効果がありますし、平方根変換はポアソン分布に従うようなカウントデータの正規性を改善することができます。

3. 統計的パワーの向上

パラメトリック検定はノンパラメトリック検定に比べて一般的に統計的パワーが高く、正規性が満たされている場合はより鋭敏に差を検出することができます。変換を行って正規性を満たすことで、データ解析における検出力を最大化することが可能です。

4. 変換の適用後も解釈は可能

変換後のデータで得られた結果は、元のスケールに戻して解釈することが可能です。例えば、対数変換後に得られた平均差を元のスケールに戻して解釈することで、臨床的な意味合いを保ちながら解析結果を伝えることができます。

説明の例

「パラメトリック手法は正規分布を仮定していますが、データが正規性を満たさない場合があります。対数変換や平方根変換を行うと、データの分布を正規分布に近づけることができ、パラメトリック解析が適用可能になります。この変換は、データのばらつきや歪みを改善し、解析の信頼性と統計的パワーを高めるために有効です。変換後の結果は、元のスケールに戻して解釈することができるので、臨床的な意味合いを保ちながら結論を導くことが可能です。」

試験計画書上に、正規性が認められない場合は、パラメトリックな検定からノンパラメトリックな検定に偏向するということを明記しておけば、これらが混在することによる混乱は避けられますか？

試験計画書に「正規性が認められない場合には、パラメトリック検定からノンパラメトリック検定に移行する」という方針を明記することは、統計解析の一貫性を保ち、混乱を避けるために有効な対策です。しかし、以下の点にも注意することで、さらに明確で理解しやすい計画書にすることができます。

1. 検定手法の明示

パラメトリックな検定（例: t検定、分散分析）に加えて、正規性が満たされなかった場合に使用する具体的なノンパラメトリックな検定手法（例: Mann-Whitney U検定、Kruskal-Wallis検定など）も明記します。これにより、解析がどのように進行するかが明確になり、結果の解釈や報告に混乱が生じにくくなります。

2. 正規性検定の具体的な方法の記述

正規性を判断するためにどの検定を用いるのか（Shapiro-Wilk検定やKolmogorov-Smirnov検定など）を明記しておくと、基準が統一され、解析の進め方が一貫します。また、正規性の判断基準（例えばp値＜0.05）も具体的に記述しておくとよいです。

3. データ変換の可能性についての言及

正規性が満たされない場合に、対数変換や平方根変換などのデータ変換を試みた上でパラメトリック検定を行うか、それとも即座にノンパラメトリック検定に移行するかを事前に規定しておくことも重要です。これにより、データ変換による結果の解釈とノンパラメトリック検定の使用が適切に区別されます。

4. 一貫した検定の方針

途中で検定手法を変更することが適切かどうか、統計学的な観点から検討しておくことも大切です。たとえば、同じデータセットに対してパラメトリック検定とノンパラメトリック検定を混在させると、結果の一貫性や解釈に難が生じることがあります。あらかじめ、どちらの検定を最優先するか、あるいはどのタイミングで移行するかを明確にしておけば、解析の流れがスムーズになります。

5. 解析計画の透明性

事前にこうした方針を明記しておくことで、結果の報告における透明性が高まり、後で「結果に基づいて検定手法を選んだのではないか」という懸念を防ぐことができます。これにより、解析の信頼性を保つことができます。

具体的な記述の例

「本試験では、データが正規分布に従うかどうかをShapiro-Wilk検定を用いて評価する。正規性が認められない場合、パラメトリックな検定（t検定、分散分析など）からノンパラメトリックな検定（Mann-Whitney U検定、Kruskal-Wallis検定など）に移行する。また、変換（対数変換や平方根変換など）を試みて正規性を改善した場合は、パラメトリックな検定を引き続き使用する。」

このように、検定の変更条件や手順を明確にしておけば、混乱を避け、一貫した解析を行うことができるでしょう。

ｔ検定が意外と頑健性があるので、多少、正規性がなくとも問題ないという意見も聞きます。

その意見は正しいです。t検定は実際に正規性の仮定に対してある程度の頑健性を持っています。つまり、データが完全に正規分布に従っていなくても、特にサンプルサイズが大きい場合にはt検定は有効です。以下のポイントでその理由を説明できます。

1. 中心極限定理の影響

中心極限定理によれば、サンプルサイズが十分に大きい場合、元のデータが正規分布でないとしても、サンプル平均はほぼ正規分布に従います。これにより、t検定が使える状況が広がります。一般的には、サンプルサイズが30以上であれば、t検定はかなり頑健で、多少の正規性の欠如は問題になりにくいです。

2. 対称性が重要

t検定が特に問題になるのは、データが非常に非対称であったり、外れ値が多い場合です。データがある程度対称的であれば、正規性の仮定が満たされていなくても、t検定は比較的正確な結果を提供します。正規性の仮定が少し崩れている場合、特に分散が均等であれば、結果に大きな影響を与えることは少ないです。

3. 小さいサンプルサイズでは注意が必要

一方で、サンプルサイズが小さい場合は注意が必要です。小規模なサンプルでは正規性がより重要になるため、正規性が大きく崩れている場合はノンパラメトリックな手法（例: Mann-Whitney U検定）が推奨されます。

4. 検出力の維持

t検定はノンパラメトリックな検定に比べて、通常は統計的検出力が高いです。つまり、t検定を使用できる場合は、より小さな差や効果を検出できる可能性が高くなります。そのため、多少の正規性の欠如があっても、t検定を使うメリットが大きい場合があります。

まとめ

t検定は、ある程度の正規性の欠如に対して頑健性があるため、特にサンプルサイズが大きく、データが極端に非対称でない場合には、t検定を使用して問題ないことが多いです。ただし、データの性質やサンプルサイズに応じて、必要であればノンパラメトリックな検定を検討する柔軟性も重要です。