見出し画像

P値に関する考察・・・アメリカ統計学会の声明を基に


ピザ3枚

あなたのお友達はこう言いました。
「この間、何回かピザを頼んだんだけど
だいたい20分くらいで来るみたい」

(そんなすぐに来るものなの?)
あなたはそう思いました。

そこで参考までに自宅で試してみることにしました。
3回オーダーしたところ、掛かった時間は
22分、33分、29分
でした。

つまり
平均=28.0 分
標準偏差(ばらつきの指標)=5.6 分
でした。

(たった3回だしこんな時間が掛かったのは偶然かも?)
あなたはそう考え眠りにつきました。

その夢の中で神様はあなたのために
P値という確率を計算してくださいました。

「20分以内にピザが来る」のが真のとき、
3度の注文した結果から計算したP値は、
0.0653=6.5%
と計算できたそうです。

これがP値です(いくつかP値は計算できるがその一部・・ 註1 )。

P<0.05 が統計的に有意と判断するならば、
上記の結果は、統計的に有意ではないということになります。

あなたは夢の中で神様に聞きました。
「統計的に有意ではないっていうことは
20分以内でピザが来るっていう仮説が正しいということですか?」

神様は答えました。
「それは判らないよね。
20分以内で来ることを真としたときの確率なだけなので。
しかも注文した数、3度だけだしね。」

「ですよね(笑)」
あなたはこう答え朝を迎えました。
体重は増えていました。

ピザ5枚


あなたはピザが好きになり
さらに5度、同じお店で注文しました。

そのときにかかった時間は
20分、29分、24分、22分、33分
でした。

(・・・。
1度だけ20分で来たけど、
まぁ、20分以上はかかるものかな?)

あなたはそんな風に思い眠りにつくと
神様が5つの注文について
前述のとおり確率計算をしてくださいました。

10分以内で注文したピザが来るという仮説を真とすると
5度の注文で
平均値=25.6分
標準偏差=5.3分
という観察結果から導かれた確率は
0.0391(3.9%)だったそうです。

「P<0.05だから統計的に有意ってやつだね」
神様は言いました。

「では、20分より時間がかかるって
証明されたってことですか?
1度は20分で来ましたよ?」
あなたは聞いてみました。

「そんな証明にはならないよね。
あくまであなたの注文の5回分の平均の話だし、
それで証明されたって表現してしまうのも極端だよね。」
神様は答えました。

「ですよね(笑)」
あなたはこう答え朝を迎えました。
体重は増えていました。

ピザ100枚

あなたはさらにピザが好きになり、
さらに100度の注文を行いました。
あれから100回もピザを頼んで食べてしまったと罪悪感に酔いしれた夜、

神様が
「お祝いにP値を計算してあげるよ」
とP値を計算しくれました。

「20分以内で来る」という仮説が真のとき
平均=24.6分
標準偏差=5.77分
という統計量+100回の注文に基づいてP値は、
0.00000000000218
だったそうです。

簡潔に表現すると
P<0.001
だそうです。

あなたは言いました。
「すっごい有意ですね!」

「そうだね(笑」
神様は答えました。

「こんなに確率、P値が低いってことは
25分が来るっていうことが証明されたってことですか?
でも20分も25分もそんな変わらないですよね。
何度か20分以内でも来ましたし。」
あなたは問いました。

「P値は20分以内に来ることに対しての確率だから、
25分で来ることが証明されたことにはならないよ。
そして平均25分で来ることの確率を計算をしたのではなくて
平均25分の検定をしたのだけど、計算上は
25分以上の時間が掛かる確率を計算したものだから気を付けてね。
あと100回も注文したら
それだけ平均値を推定する精度も上がるから
P値も低くなっちゃうよ。
何度も20分以内で来ることがあったとしてもね。
あくまであなたが贔屓にしているお店の話だしね。
平均5分の違いの良し悪しは人に依るんじゃないかな?」
神様は答えました。

「ですよね(笑」
あなたはそう答え朝を迎えました。
体重は増えていました。

おさらい・・2016年にアメリカ統計学会の声明と照らして

この例から6つのポイントを挙げたいと思います。この6つのポイントでカバーされている事柄は長らく医学界で問題視されていたもので、さらに2016年にアメリカ統計学会が発表した声明に沿ったものです(註2)。

ピザの到着に要する時間ではなくて、ある医療における医療介入Aが既存のそれと比較して効果があるか(健康状態が1ヶ月よりも長くなるか)という臨床上の問いでまったく同じ議論がされているものと考えて頂いても結構です。「こんな解釈ダメですよね」と思わせるような解釈が何十年と認められていた・・(というと極端かもしれませんが)そういった背景があります。

1。P値というのはある仮説を真としたときに観察結果、あるいはそれ以上に極端な結果が得られる確率です。

この例では、
「ピザが20分以内に来る」
という説を真としたときに、観察された平均時間(たとえば25分)、あるいはそれ以上に時間がかかる場合(つまり≧25分)の確率です。

2。P値というのはその計算の基となっている仮説が真だったかどうか証明するものではありません。

この例では
「ピザが20分以内に来る」
をP値が証明することはありません。一方で観察された平均値の精度や正しさ(ここでは平均25分・・など)を示す数値ではありません。

3。P値に基づいて一般向けの結論を出すことはできません。

この例では
「ピザは20分以内で来る」
という仮説に対しP値が<0.05だったからといって、
「ピザは平均20分以内に来ない」
「ピザは平均25分以上で来る」
と一般論として述べることはできません。

サンプル数を大きくすれば小さな統計量でもP値は小さくなります。またその統計量を得た試験の現場が代表的ではないかもしれません。ですのでそれが意味のある統計量なのかP値からではわかりません。

4。透明性を確保すること。

上記の例では、サンプルを蓄積させてその度にP値を計算している様子が描かれています。科学研究上、そのように実験を繰り返してP値を繰り返し計算することはNGです。

サンプルを増せばP値が下がることはわかっているためです。また何度もP値の計算を繰り返して、都合の良いタイミングでP<0.05の結果を選んでしまうことも実際にはできてしまいます。

そういった選択的、あるいは恣意的な結果の公表に至らないように、正直に計算過程を明確にすることが求められます。この例では、ピザを注文した時期・環境やどのようにP値を計算したのか明確でないので適切でない描写といえます。

5。P値は効果量を示すことにはなりません。

この例で「効果量」を述べるのは「20分」との差になります。
3つの計算については、20分との差が、
平均8.0分のときP値 =0.06
平均5.6分のときP値 =0.02
平均4.6分のときP値 <0.0001
でした。
この例のようにp値が低いからといって効果量が大きいというわけではありません。同様にP値の低さが、実社会で意味のある結果を示しているかどうかはわかりません。
(5分ほどの差が有意義か否か人によって異なるように。)

繰り返しになりますが、P値はある仮説に対して、観測された結果、あるいはそれ以上に極端な結果が得られる確率に相当します。この例では、たとえば20分というピザ到着時間に対して平均25分、あるいはそれ以上がかかる時間の確率に相当します。

6。P値はエビデンスの強さを示すものではありません。

効果がどれほどあって、その効果の推定方法がどれほど妥当で、その効果推定の精度がどれほどか・・などを考慮することを含めてエビデンスの強さ、良し悪しを評価することが求められます。そういった情報を提供できないP値のみで判断するのはNGです。

以上です。参考になれば幸いです。P値を娯楽程度に考えてみたらどうだろうかと私が考えつづってみた形になります。

何かご質問・ご希望があればこちらへ…
質問箱: https://peing.net/ja/nutrepi

註1:
検定した仮説は20分以内(≦20)ですので片側検定に相当します。
それによって計算された確率は片側のP値になります。

註2:
RL Wasserstein & NA Lazar, The ASA Statement on p-Values: Context, Process, and Purpose, Am Stat, 2016

画像は次のサイトから。
https://www.pexels.com/ru-ru/

この記事が気に入ったらサポートをしてみませんか?