マスクを徹底検証：2日目【全米データの統計分析，エビデンスレベル，デンマークとバングラデシュのRCT】

新型コロナ騒動の情報サイト

2021年10月5日 21:07

※本記事は，連載の第2回です．先に前回の記事

に目を通していただくことをお勧めします．

【3. エビデンスレベルとランダム化比較試験】

明くる日の放課後に、A子、B郎、C美、D介は理科準備室を訪れました。先生は、お茶とお菓子を用意して4人を出迎えます。

先生「よし、じゃあ昨日の続きから始めよう。」

B郎「たしか、”治療法や予防法が確立するまでの基本ステップ”の内、マスクについては①まで調べたんですよね。そしたら、マスクがコロナ感染防止に効果があるとはとても言えないデータでした。」

C美「同一州内の比較データとか、1千万人を越える大規模調査の結果は、むしろ逆効果を示しているように見えたわ。」

先生「そうだったね。他にも、こんな論文が発表されている。」

https://escipub.com/irjph-2021-08-1005/

先生「これは、アメリカの49州を対象に、2021年3月6日までのコロナ感染率データを分析した論文だ。”マスクを義務化した期間” と ”州内のマスク着用率” が、それぞれ感染率にどう影響を及ぼしたかを調べている。」

先生「この分析では、 "州ごとの人口密度の違い" も考慮して補正している。」

D介「それで、どういう結果だったんですか？」

先生「これが彼らの結論だ。」

A子「つまり・・・マスクの義務化も着用率も、感染拡大抑止との関係は見出されなかったということね。」

先生「そう。昨日から検証してきたように、”実社会で効果が出ている" という①の条件は、全く満たされていない。本来ならこの時点で、マスクの話は終わりにしてもいいんだ。もし、”マスクを（半）強制すべき” という人がいたら、”少なくとも数千万人規模のデータを持ってきて、実社会でマスクが感染率を下げることを示してください、話はそれからです” と言えば済んでしまう。昨日も行った通り、あくまでマスクの効果を立証すべきなのは彼らの方だからね。ただ、せっかくみんながマスクに興味を持ってくれたのだから、今日は②の臨床研究の話をしよう。」

A子「わたし、昨日帰ってからマスクについて調べてみたんです。そしたら、”効果がある” と言ってるYahoo記事をいくつか見つけました。論文も引用してあったのだけど、あれは何だったのかしら？」

先生「そうやって自分で調べて考えることは、とても重要だね。”効果がある” と主張してる人達が何を根拠としているかについては、この後１つずつ検証して行こう。その前に、臨床研究のエビデンスレベルについて知っておく必要がある。」

B郎「はじめて聞いた言葉だな。」

先生「簡単に言うと、”臨床研究がどれくらい信頼できるか（バイアスが少ないか）” を表す指標だ。エビデンスレベルは6段階に分類されている。」

https://www.fizz-di.jp/archives/1028713473.html

C美「動物実験やシミュレーションは、レベル6よりさらに下なんですね。」

先生「そう。後でも話すように、マスクについて行われたハムスター実験、東大のマネキン実験、スパコンの飛沫シミュレーションなどは、全てエビデンスレベルの範囲外。言い換えれば、臨床研究とは見なされないんだ。」

D介「じゃあ、なんの役にも立たないということ？」

先生「もちろんそんな事はない。例えば、室内実験やシミュレーションは "機構研究" と呼ばれて、さっきの基本ステップでいう ”②' メカニズムの解明” に役立つ可能性がある。ただ、これらは現実と異なる限定環境やいくつかの仮定に基づいて行われるから、機構研究だけから効果を実証することはできないんだ。これについては、昨日すでにA子が指摘していたね。」

A子「表をみると、臨床研究で一番エビデンスレベルが高いのは、ランダム化比較試験というものなんですね。」

先生「うん。英語の頭文字をとって、RCTとも呼ばれる。これは、被験者を2つのグループに分けて片方にだけ介入（治療、投薬など）を行うことで、介入の効果を調べる方法なんだ。」

図の引用元：https://www.atelier-roi.co.jp/levels-of-evidence/

D介「うーん。わかったような、わからないような・・・」

先生「具体例を見てみよう。マスクのコロナ感染予防効果に関しては、2020年の4, 5月にデンマークの一般市民を対象として、6,000人規模のRCTが行われたんだ。マスクについて、一般市民を対象としたこのような規模のRCTが行われたのは世界初だったから、11月に発表されたこのRCT論文は学術界で大きな注目を集めた。」

https://www.acpjournals.org/doi/full/10.7326/M20-6817

B郎「どんな研究だったんですか？」

先生「この図を見てごらん。簡単に言えば、6,000人強の被験者をランダムに2つのグループに分け、片方のグループだけ常にマスクをつけさせて、1か月間生活してもらったんだ。その結果、マスク着用グループと非着用グループで、コロナ感染率に有意差がなかった。」

C美「有意差って？」

先生「平たく言えば、”統計的に意味のある差”のこと。例えば、コインを10回投げて、表が6回、裏が4回出たとするだろう。この結果から、”表の方が出やすいコインだ”とは言えない。なぜなら、偏りのないコインでも、”表が6回、裏が4回出ること” は頻繁にあるから。でも、1,000回投げて、表が600回、裏が400回出たとしたら、”表の方が出やすい” という主張には強い説得力がある。簡単に言うと、前者が"有意差なし"、後者が"有意差あり"に相当する。デンマークのRCTで、コロナ感染率に有意差がなかったということは、”マスクに感染予防効果があるとは言えない”という結果なんだ。」

A子「ランダムにグループ分けすることに、意味があるんですか？例えば、希望者だけにマスクを着用してもらうのではダメなのかしら？」

先生「そこは重要なポイントだね。仮に、被験者の希望に沿って、グループ分けしたとしよう。すると、マスク着用を希望する集団と、非着用を希望する集団では、普段の生活様式（外出頻度など）に違いが出てしまう可能性がある。それでは、純粋なマスクの効果を調べられないんだ。このような理由から、介入研究であるRCTは最上位で、レベル2以下の観察研究とは大きく区別されるんだよ。デンマークのRCT論文については石井仁平医師がわかりやすく解説しているから、興味があれば後で読んでみるといい。」

B郎「RCTの論文は、他にはないんですか？」

先生「最近、一部マスク推奨家の間で話題になっているRCT論文がある。バングラデシュにある600の村を対象に、半分の村へだけ介入を行って、コロナ感染状況を比較した研究だ。査読前の論文が、2021年8月31日に公開されている。」

https://www.poverty-action.org/publication/impact-community-masking-covid-19-cluster-randomized-trial-bangladesh

A子「さっきのデンマークのRCTとは違って、個人ごとではなく村ごとに介入の有無を決めるんですね。」

先生「そう。集団（=クラスター）ごとに介入の有無を定めるRCTは、特に "クラスターRCT" と呼ばれている。このバングラデシュの研究を基に、”マスクの効果が示された” と主張する人がいるんだけど、これにはいくつかの問題がある。第一に、この研究は純粋なマスクのRCTではないんだ。」

D介「どういうことですか？」

先生「バングラデシュのRCTは、”マスク着用の村” と ”マスク非着用の村” の比較ではなく、"マスクを無料で配って、感染予防についてビデオ教育した村” と "何も介入していない村" の比較なんだ。問題なのは、この介入がマスクの着用率だけでなく、同時に村の人々の行動にも変化をもたらした点だ。例えば、この論文では ”周りと身体的距離を取っている（Physical Distancing）人の割合” を村ごとにモニターしていて、介入村の方が有意に高くなっている（＋5.1%）。著者らも次のように主張しているんだ。」

A子「"教育プログラムでマスクを推奨したことによって、田舎の村に住む人達が事態をより深刻に捉えるようになり、他の予防措置も取るようになった" と言っているのね。」

B郎「つまり、マスク以外の要因も影響してしまっているのか。」

先生「もう1つの問題点も説明しよう。この論文は、”有症状かつ血清反応陽性だった人の割合が、介入村では0.68 %で、この数字は非介入村の0.76 %に比べて有意に低い” と結論しているんだ。有意性を判断するために用いられる指標がp値で、慣習的に "p<0.05 ならば有意" と判断される場合が多い。この論文では p=0.043 と算出している。」

D介「ギリギリ有意って感じだな。」

先生「ただ、注意が必要だ。有症状者の内、血液検査に同意した人の割合は40%しかいなくて、論文では残りの60%を分析から除外している。」

関連記事：https://takahashi-goh.net/medical14

C美「じゃあ、同意しなかった半分以上の人達を分析に含めたら、有意でなくなる可能性は十分にあるわね。」

先生「他にもUCバークレーの研究者が、”正規分布を仮定したモデルがそもそも正しくないので、それに基づいて計算されたp値に意味がない” という指摘をしている。興味があればこの記事を読んでみるといい。」

http://www.argmin.net/2021/09/13/effect-size/
日本語解説記事：https://himaginary.hatenablog.com/entry/20210919/effect-size

A子「結局、"有意差が出た" という主張自体にも、疑問の余地があるということか。」

D介「そもそも、マスクの効果を教育するプログラムを実施している時点で、この研究そのものが "マスクに効果がある” という結論ありきで行われたように見えるよな。」

C美「たしかに、そういうバイアスもありそう。例えば新薬の効果を調べる治験で、 "この薬には重要な効果があります" って被験者に事前に教育することはないものね。」

先生「今列挙してきたような問題がある以上、少なくともこの研究だけからマスクの効果を論じるのはとても危ういんだ。もっと一般的な話をすると、バングラデシュのRCTに限らず、1つのRCTから言えることにはどうしても限界がある。そこで、複数の研究グループが行ったRCTの結果を集めて統計的に再分析する方法がRCTのメタ分析で、エビデンスレベルの最上位に位置するんだ。」

先生「これについて話し始めると長くなってしまうから、続きは明日にしよう。」

B郎「また放課後に来ればいいですか？」

先生「あっ、明日は放課後に会議が入っているんだった。昼休みは空いているけど・・・」

A子「そしたら、明日の昼休みにお弁当を持ってみんなで遊びに来ます！」

※続きはこちらです．

マスクを徹底検証：2日目【全米データの統計分析，エビデンスレベル，デンマークとバングラデシュのRCT】

【3. エビデンスレベルとランダム化比較試験】

いいなと思ったら応援しよう！