見出し画像

宇崎ちゃん献血コラボによって、献血者が増えたのかp値を計算してみた結果

また続編です。いつまで続けるのか?
これまでの記事はこちら⇒第1回第2回

これまでの記事では、p値とか信頼区間とかの推論指標を載せていませんでした。これは何故かというと、手間がかかるからです。あと、純粋にp値が好きではないからです。にっこり。

これについて、猫(ミケ)・固定ツイもよんでね様から下記の様なご指摘を頂きました。

ご指摘の通り、面倒くさいからと言ってp値を出していないのは、片手落ちです。この点を解消するためにp値の計算も行なおうと思います(小並感)。

概要まとめ

なんやかんや頑張って、p値を計算してみたら0.0589でした。α=0.05の水準では、帰無仮説は棄却出来ませんでした。

ただし、p値は正しく解釈してください。帰無仮説が正しい確率とかではありません。

ざっくりいうと「想定している統計モデルが正しく、帰無仮説が真実であるときに、得られた数値またはそれよりも極端な数値が得られる確率」です。

アメリカ統計協会様がいろいろp値について重要なことを書いていますのでご参照下さい。日本語訳は日本計量生物学会様が公開されています。

p値の計算の仕方

SCMにおけるp値の計算については、Abadie先生達の論文に載っています(論文中p.500, left columnあたり)。※この論文は有料です…

Abadie先生達の論文からp値について書かれた箇所を引用します。

As in traditional statistical inference, a quantitative comparison between the distribution of placebo effects and the synthetic control estimate can be operationalized through the use of p-values. (p.500, left column, lines 18-21)
In this context, a p-value can be constructed by estimating in-space placebo effects for each unit in the sample and then calculating the fraction of such effects greater than or equal to the effect estimated for the treated unit. (p.500, left column, lines 21-25)

※上記の論文は有料ですので、引用は最小限にしました。ご興味のある方はご購入下さい(他者に対するダイマ1回目)。

簡単に要約しますと(簡単とは言っていない)、「プラセボ効果の分布とSCMで出た結果を比較すれば、p値が使用できる。in-place placebo effectを推定して、SCMで出た効果以上になる割合を計算すると良い。」ということです。どういうことや。

寄り道しながら説明します。

SCMにおけるプラセボ効果(寄り道)

最初にSCMにおけるプラセボ効果について説明したいと思います。

一般に「プラセボ効果」とは、効果ない介入っぽいこと行なっているのに効果が生じることを意味しています。

例えば、薬剤の研究であれば、見た目は薬そっくりだけど薬効成分ゼロの錠剤(プラセボ)を服用して、体調の改善を確認したりします。

多くの場合、プラセボを飲んでも幾分かの改善が見られます。「病気は気から」というように、何か飲んだこと自体が効果を現すことがあります。が、大きな効果ではありません。

そこで、(本物の薬剤の効果)が(プラセボの効果)よりも大きくなっていることを確かめます。

SCMでも同様で「効果がない介入っぽいこと」を行なったとして、解析を行ないます。具体的には、下記のようなプラセボを考えます。
(1)介入開始時期ではない時点を「プラセボ介入時点」する。
(2)介入地域ではない地域を「プラセボ介入地域」とする。

今回の解析において、(1)実際に宇崎ちゃんコラボ企画があった10月ではなく、8月を介入時点と見なしたらどうか?ということを考えたり、(2)実際にはコラボ企画がなかった北海道を介入地域としたらどうか?という事を考えます。

それぞれで、プラセボ介入時点やプラセボ介入地域で、どのくらい改善があったのかを計算します(前者にはin-time placebo effect、後者にはin-place placebo effectと名前が付いています)。

で、Abadie先生の言うには、in-place placebo effectを使うとp値の計算ができるよ!ってことです。

in-place placebo effectを計算します。

私が持っているデータセットには、「プラセボ介入地域」は36道府県あります。つまり、36個のin-place placebo effectの算出が可能です。うん、面倒くさい。

ドラクエで例えるなら、バラモスを倒したと思ったら、バラモスゾンビが36体一遍に出てきた感じ。勇者が冒険を止めて、アリアハンに引きこもるレベルの面倒くささです。

ですが、36個のin-place placebo effectを計算します。我に艱難辛苦を与え賜え(by 山中鹿之介)。

利用したデータと結果をまとめたExcelと、Stataコードはこちら。
※analysis_SCMuzaki_p.doでin-place placebo effectを算出するためのSCMを実施し、calc_p_inSCM.doでp値を計算します。

今まで無視しててごめん、RMSPE(また、寄り道)

また、寄り道ですが、RMSPEを今まで無視していたことを白状せねばなりません。ごめんよ、RMSPE。

RMSPEは”Root Mean Squared Prediction Error”のことです。すごくざっくりいうと「合成対照が上手く作れたかどうか?」の指標になっています。小さければ小さいほど、良い合成対照になっています。

最初の記事「宇崎ちゃん献血コラボによって、献血者が増えたのか確かめてみた結果」では、関東地方に似せて作った合成対照RMSPEは約128でした。

それを踏まえて、36個のin-place placebo effectを提示したいと思います。

in-place placebo effectの結果

こんな結果になりました。noteだと見えにくいですかね・・・?

画像1

突然の意志決定ですが、RMSPEが大きすぎるところは、in-place placebo effectを解析から除外しようと思います。予め決めておかないといけないと思うんですが、決める前にこの結果を見てしまったのでどうしようもない。

関東圏で合成対照を作ったときには、RMSPE=128だったので、2倍までは許容する事にします(完全に主観)。RMSPE≧256の愛知県と大阪府には涙を呑んで貰います。北海道はギリセーフってことで。

恣意的に見えるかも知れませんが、少なくともRMSPE=5745の大阪府を削除することに異論は無いと思います。というか、大阪府の合成対照では、愛知県に「1」の重みがかけられただけです。要は合成できておらず、実質、大阪府 vs 愛知県の比較だったので、「合成して良い感じにする」というSCMの趣旨から外れていますし。

検定をするまえに、34個のin-place placebo effectの記述統計量をみてみます。

画像2

ヒストグラムはこんな感じです。ゼロを中心に左右に分布していますが、正規分布というには無理がありそうです。
※それでも Shapiro-Wilk検定では、p=0.83でしたが…。

画像3

ようやく検定を行ないます。

ようやく、(関東圏の介入効果)と(34個のin-place placebo effect)が等しいかどうかを有意性検定したいと思います。

関東圏の介入効果は、先の記事で「247.62」と分かっていますので、その値を使います。
※先の記事中では、四捨五入して「250」と書いていました。すいません。

で、検定ですが、下記の方法を純粋に実行します。

In this context, a p-value can be constructed by estimating in-space placebo effects for each unit in the sample and then calculating the fraction of such effects greater than or equal to the effect estimated for the treated unit. (p.500, left column, lines 21-25)
※強調箇所は、記事作成者によるもの。

つまり、in-place placebo effectが「247.62」よりも大きくなる割合を計算します。ここまでくれば、後は簡単に済ませられるぞ…!

in-place placebo effectが247.62よりも大きいのは、新潟県(263)と長野県(375)です。よって、34個のin-place placebo effectのうち2個なので、p=2/34=0.0589になります。

もし、仮に大阪府と愛知県を除いていなかったとしても、p=3/36=0.0833でした。

α=0.05水準では、帰無仮説を棄却出来ないということになりました。

割算の結果も検定してみた(久保先生に怒られるやつ)

毒を食らわば皿まで。ということで、2019年10月の献血者数に占めるin-place placebo effect(関東の場合は、介入効果)も検定して見ました。

このような割り算の結果を用いることは、久保先生が厳に戒められていることですし、個人的にも好きではないのですが、今回は補足的にやってみました。

割算の結果がアカンという話の詳細は「データ解析のための統計モデリング入門」にて(他者に対するダイマ2回目)。

関東では、1都県あたりの2019年10月の献血者数12886人に対して、介入効果が248.62人でしたので、割合は1.92%です。

これを34道府県でも算出しました。結果として、青森・秋田・山形・新潟・長野・奈良・和歌山・岡山・広島・徳島の13県で、1.92%を超えていました。

これを使って計算すると、p=13/34=0.382です。当然、帰無仮説は棄却できません。

信頼区間は計算しないの?

ここまできたら信頼区間も計算したくなります。例のAbadie先生の論文では下記の様に書いてあります。

Notice that the inferential methods outlined in this section do not produce confidence intervals or posterior distributions,  (p.500, left column, line 32-34)
※強調箇所は、記事作成者によるもの。

「the inferential methods outlined in this section do not produce confidence intervals(ここで紹介する推論方法は信頼区間を算出しない)」って書いていますね。解散。

さらに検討したり、検索したりすれば、SCMにおける信頼区間の算出についての文献が有るかも知れませんが、現時点では確認できませんでした。

利益相反(COI)について

宇崎ちゃん献血コラボ関係の利益相反は、11月17日の記事中の通りです。また、コメントを頂いた猫(ミケ)・固定ツイもよんでね様との利益関係はありません。

また、コメント頂いたり、ツイート等を引用させて頂いた方達との利益関係はありません。様々なご意見・ご指摘を頂きありがとうございました。

金銭・経済的なCOIはありません。ただし、金銭を頂くことを拒否している訳ではありません。何か贈りたい方は是非お願いします(自分へのダイマ)

いいなと思ったら応援しよう!