見出し画像

研究初心者が陥りがちな罠〜サンプル数、足りてますか?


はじめに

 研究がうまく行って、期待通りの実験結果が得られたとします。おめでとうございます!でも、ちょっと立ち止まって、実験の再現性が取れるか慎重に確認する必要があります。必ずもう一度同じ実験を行って、同じ結果になるか確認することが大切です。そして、統計処理による定量的な「科学的証拠」を得るために、もう2〜3回は実験を繰り返しましょう。

「サンプル数不足の罠、あるいは、再現性の罠」には、研究初心者だけでなく研究教育指導者も囚われています。意外かもしれませんが、大抵の研究教育指導者は、統計処理について正しく理解していないことがほとんどです。それどころか、「もう一回実験をやって、同じ結果が出なかったらどうする?(だから、やるな)」と言い出す指導者さえいます(実話)。再現性がとれなかったら、結果がたまたまそうだった、つまり、科学的にはっきりとしたことは言えない、というのが真実なのだと思いますが。。。

 異なる専門の研究者と議論していると、「解析に必要なサンプル数はいくつ取ればよいか・再現性は何回とれはよいか」について、感覚がだいぶ異なっていることがわかります。以下、いくつかの反応を挙げてみます。

  • え?N=1でよくない?

  • N=3で十分

  • 最低N=10~20、できればN>30は欲しい

  • 効果量を考慮して、必要サンプル数を計算しないとわからない

 一般的な感覚だと、「N=3で十分」かもしれません。一つの理由は、平均値や標準偏差など、統計処理を行う際にサンプル数がN=3以上必要だからです(計算はN=2でもできますが、意味がありません)。後述しますが、だらかといって、すべてにおいてN=3で十分というのも間違っています。

サンプル数はいくつ必要なのか・再現性は何回とればよいのか

え?N=1でよくない?

 一般に、モノづくりに関わる工学系の研究者はこの感覚が多いと思います。というのも、工学では、ある製造品が1個できたとしたら、原理的に同じものを100万個でも作製可能だからです(確率的にアクシデントで生じる不良品の分は除く)。また、工学系ではサンプル間の個体差が生命系のサンプルに比べて非常に小さいので、ほぼ確実に再現性が取れることが担保されていることも大きいのではないでしょうか。
 また、進化・歴史に関する研究、古生物学における新種化石の発見や、宇宙科学における新規の天体の発見など、再現性を取ることが極端に難しい研究領域でも、N=1でモノを言うことが許されている事が多いと思います。

N=3で十分

 こちらは、生化学など、何らかの集団的な挙動を扱う研究領域の感覚です。というのも、一つのサンプルの結果は、サンプル中の非常に多くの分子の集団的振る舞いとみなせるので、大数の法則により確率論的に計算できることがほとんどだからです。例えば、1 μMのタンパク質溶液の反応は、6.02×10の17乗個の分子の集団的な挙動なので、非常に安定なものとなります。1回1回の実験が安定しているので、大抵はN=3でも十分です。

最低N=10~20、できればN>30は欲しい

 遺伝的背景が均一な、培養細胞や純系の動物・植物を用いた研究など、サンプル間での多様性が少ない対象を扱う研究は、結果が正規分布に従うことが多いので、最低N=10~20あれば、大抵は信頼できます。しかし、中心極限定理から言うと、できればN=30は欲しいところです。

効果量を考慮して、必要サンプル数を計算しないとわからない

 ヒトを対象とした介入研究や観察研究、アンケートなど、研究対象の背景が多様で、実験条件・環境の統制が難しい研究では、どのくらいの効果量(結果の大きさ)があるかを予測して、必要サンプル数を計算で見積もる必要があります。一般に数百〜数千のサンプル数が必要となります。コホート研究などは、万単位のサンプル数が理想でしょう。ただし、研究対象・実験条件を厳密に統制することで、必要サンプル数を10〜20程度まで減らすことも可能です。筆者は、サンプル数の計算にG*Powerというフリーソフトウェアを使用しています。

とりあえずで実験を始めない・続けない

 この「サンプル数不足の罠、あるいは、再現性の罠」は遅効性の毒のようなものです。少ないサンプル数で、または、再現性を取らずに実験を進めてしまい、さて、論文となった段階で査読者からサンプル数が少ないとの指摘を受け、サンプル数を増やしたら統計的有意差がなくなってしまった、という話はよくあります。サンプル数不足のために不確定な結果を元に研究を進めてしまい、結局間違っていたとしても後に引けない状況に陥ってしまうのです。そうなると、有意差が出るように統計解析法を弄り回すか、最悪、サンプルを間引くなど、研究倫理に反する行動を取りかねません。
 また、前担当者が出した不確定な結果を根拠にした研究テーマを与えられてしまうと、とても不幸な結果が待っています。研究教育指導者は前担当者が出した自分に都合の良い結果を信じている(信じたい)ので、再現性がとれない場合、学生の実験技術のせいにしたりします。そして、また一つ捏造案件が生まれるのです。

 ダメな研究デザインから得られた実験結果は役に立ちません。ゴミ研究デザインからは、ゴミ結果しか生まれません。研究対象の性質に合わせた再現性を担保するような研究デザインを採用することが大切です。研究初心者は、実験が成功したとしても喜びをグッとこらえて、再現性を取るまで油断してはいけません。また、必要なサンプル数については、研究教育指導者の言う事を鵜呑みにせず、実験デザインの本などで自分で勉強するとともに、統計に詳しい人物にアドバイスを求めましょう。

いいなと思ったら応援しよう!