教育学分野における再現性の話
この記事は、Open and Reproducible Science Advent Calendar 2019 の14日目の記事です。
これまでのアドベントカレンダーの記事では、主に心理学における再現性の話が展開されていたかと思います。しかしながら、再現性の問題は心理学に限った話ではありません。そこで、この記事では私の専門の教育学分野(特に教科教育)で再現性問題にどう向き合うかという話を書かせていただきたいと思います。そこには、心理学と共通した問題に加えて、教育学分野独自の問題があったりします。
記事の構成としては、再現性問題の概要や心理学分野における議論を概観した後、教育学分野での再現性の問題について紹介します。
再現性とは何か
再現性の一般的な定義について国里(in press)は、「ある現象が成立する条件を整えることができれば,その現象が繰り返し生じること」とした上で、再現性に関する用語の整理を試みています。
ここではその一部を紹介すると、下図のように日本語で「再現性」といっても、そこにはReproducibilityとReplication、そして、Replicationはさらに直接的追試と概念的追試を含んでいることが分かります。
後述する、教育学分野の再現性に関するガイドラインでも、国里(in press)と同様の区分を採用していることも踏まえ、この記事では国里(in press)の区分、すなわち「再解析」「追試(直接的/概念的)」とこれらを包括する用法としての「再現性」という言葉を使って記事を書いていきます。
再現性の危機
Baker(2016)が様々な領域の研究者を対象とした調査によれば、多くの領域で実験結果が再現できなかったことがあることが明らかになっています。
また、「再現性の危機がありますか?」という質問に対しては、9割が危機的状況にあると回答しています。
では、再現性の危機はどのような問題をもたらすのでしょうか?
1つは社会的資源の浪費が挙げられます。研究には様々なコストがかかっており、研究の方法の問題から研究が再現されなければ、それらのコストが無駄になることが考えられます。また、方法論上の問題を抱えた研究の結果に基づく研究の蓄積は、コストの浪費を拡大することになります。転じて、それらのコストの浪費は、経済発展の阻害にもつながります。
もう1つの問題は、学問への信頼性の低下です。研究結果が再現されなければ、学問への信頼性が低下し、社会における学問の価値が低くなることにつながります。
私の専門は教育学(特に、理科教育)ですが、教育の周辺領域では特に心理学において再現性の問題に関する議論がなされてきたと認識しています。そこで、次の章では、心理学における再現性問題への取り組みを見てみます。
心理学における再現性問題への取り組み
近年の心理学における再現性問題の議論の発端となったのは、Bem(2011)の論文だと言われています。「人間には予知能力がある」ということを主張した衝撃的な論文に対して、再現性の検証研究がなされるも、論文がリジェクトされるなどして、再現性に関する問題が明るみに出ました。
ただし、心理学では程度の差はあれど、これまでも再現性に関する問題が取り上げられてきたのではないかと思います。1950年代以降の取り組みを整理したFidlerの図を見ると、再現性に関連した問題の批判が試みられてきたことが分かります。
教育研究とエビデンス
では、教育分野はどうでしょうか。心理学が学問としての発展の過程で客観的な測定と知見の蓄積を重要視してきたのに対して、教育学は主観的な報告が許容され知見が蓄積的でない状況にありました(※個人の感想です)。
そのような状況の中、1996年のHargreavesの講演を皮切りに、客観的で検証可能なエビデンス(以後、エビデンス)に基づく教育がやっと重要視され始めました。
近年、諸外国においては、Campbell CollaborationやWWCなどが設立され、教育のエビデンスに関するデータベースが蓄積されてきています。
また、国際的な動向として、大規模な国際調査であるPISA調査やTIMSS調査などの結果が、各国の教育政策に大きな影響を及ぼしてきています。
一方、日本においては教育におけるエビデンスに関して、近年になって書籍が出版され始めたものの、エビデンスに関するデータベースの整備には至っていません。
ここで、先ほどから使用している教育のエビデンスについて、整理しておきたいと思います。教育のエビデンスには主に次の3種類があるのではないでしょうか。
1つ目は、ランダム化比較試験や実験研究に基づくエビデンスです。これは、ある介入が効果的か否かを検証するもので、最も王道のデザインといっていいのではないでしょうか。心理学における再現性の議論も大半がこのタイプの研究についてです(多分)。被験者を条件にランダムに割り付けるため、未知の共変量を統制することができます。このようなメリットがある一方で、教育研究で実施するにはいくつか問題もあります。具体的には、そもそも学校や学級を単位とすることの多い教育研究では実施が困難であることや、「実験の場を極力コントロールするが故に、現場との乖離が起きる可能性がある(岩崎,2014)」ことが挙げられます。また、英米を中心にマクロなエビデンスがミクロな学級では有効でないという批判も広まってきています。
2つ目は、ビッグデータ分析に基づくエビデンスです。これは、相関関係やパターン認識を目的とするもので、近年のPC性能の進化と分析手法の発展、大規模調査の増加を通して、事例が増えてきています。ただし、このデザインは厳密な因果関係を特定することは想定されておらず、解釈が難しいという問題もあります。
3つ目は、観察研究や準実験研究に基づくエビデンスです。この方法は、前述の2つの方法に比べて実施が容易であるものの、一般化可能性の問題や、観察されていない共変量の問題があります。
教育分野では多くの研究が、3つ目のデザインを採用しています。ですので、心理学と違って、1つ目のデザインに基づくエビデンスの再現性だけを議論するだけでは足りません。研究のデザインの問題も含めて、再現性を議論する必要があります。
教育学分野の特殊性
再現性問題に関する教育学分野の特殊性を改めて整理します。
まず、(多くの場合)人を対象とした研究であるという点では、心理学と共通した問題を抱えています。すなわち、自然科学と異なり、「人を対象とした研究では測定誤差が大きく、単一の追試によって、その結果の再現性を問うことには限界がある」という問題です。
心理学と教育学で異なる点としては、教育学の研究が準実験デザインや観察研究を多く採用しており、割付けの偏りの問題があるということです。よって、教育学分野で再現性の危機があるとしたら、QRPsや分析手法の問題だけでなく、研究デザインの問題が含まれると言えるのではないでしょうか。
教育の研究で偏ったサンプリングを生む原因は下図に示す通り沢山あります。例えば、そもそも調査協力を受け入れる余裕のある学校という時点で偏りが生じます。また、授業に関する研究では、学級を単位としてサンプルサイズが決まるため、そもそものサンプルサイズが小さく、検出力が低いという問題もあります。
しかし、そうは言っても、大規模なランダム化比較試験や実験研究の実施は難しい側面があります。そこで、観察研究や準実験研究において、方法論上の問題を乗り越え、少しでも再現性を高める手立てを考えてみます。
①傾向スコアマッチング
1つ目の手立てとして考えられるのは、傾向スコアマッチングです。
Rubinの反実仮想モデルに基づき、欠測部分を共変量に基づき推測します。
ただし、何を共変量として投入するべきなのかなど、いくつか実施上の問題も残っています。
②メタ分析
2つ目の手立てとして考えられるのは、メタ分析です。
複数の研究結果を効果量に基づき統合し、高い検出力の元、より確かな知見を生み出すことが期待できます。
近年、教育分野ではHattieらを中心に、メタ分析結果を集めてさらにメタ分析を行う「メタ・メタ分析」が行われており、知見の統合が進んでいます。Hattieの研究では、教育に関する800のメタ分析を統合(メタ・メタ分析)した結果、平均効果量がd=0.40になったことを報告しています。
(ただし、メタ分析にも、どのような水準で研究を統合するかという、いわゆる「リンゴとオレンジ問題(apples and oranges problem)」などの問題はあります。)
教育研究の再現性に関するガイドライン
再現性に関する議論の高まりを受けて、教育研究分野においても再現性の議論が少しづつ出てきています。
ここではその一例として、2018年11月に米国のInstitute of Education Sciences(教育省の評価部門)とNational Science Foundation(国立科学財団)が共同で発行した『Companion Guidelines on Replication & Reproducibility in Education Research(教育研究における再生可能性と再現可能性の共通ガイドライン)』を紹介します。
(本当は、全訳も作成したのですが、本記事公開時点で、訳を公開する許可が得られていないので、興味がある方は個人的に連絡ください。)
このガイドラインでは、再現性問題の背景や用語の定義を行ったうえで、再現性の阻害要因、再現性研究の実施上の課題について言及しています。また、再現性を高めるために教育研究が行うべきポイントとして3種類14項目を挙げています。
ここでは、ポイントの中身のみを紹介したいと思います。
A. 追試(replication)研究のガイドライン
1.どのように先行研究に基づいて構築され、学習やその他の教育成果を改善する方法の基本的知識の発展にどのように寄与するかを明らかにするべき
2.概念的追試研究を実施するためのプロポーサルは、提案する系統的変動の理論的根拠とともに、以前の研究からの変更を明確に特定するべき
3.元の研究の実施者が今回提案する追試研究に関与する場合には、所見の客観性を保証するための安全策を含める必要がある
B. 再現性と複製可能性を念頭に置いた研究デザイン(透明性とオープンサイエンス)
4.透明性は科学的に妥当な研究を計画する際に必要な前提条件である。すべての評価について、研究デザインと方法を事前登録することは、研究の完全性と透明性の確保に役立つ可能性がある。
5.教育研究は、オープンデータのアクセスポリシー、共通して合意されたデータ共有ガイドラインの開発、データやその他の資料を保存するための公開リポジトリの使用に向けて、引き続き努力する必要があります。教育研究においては、データという用語は、[尺度、データ辞書とコードブック、ソーシャルネットワーク分析、ユーザ生成データ、結果データ、分析モデル]を含む可能な限り広い用語で定義され続けるべきである。
6.分析は、他の研究者が同じデータセットを用いて結果を再現できるように十分詳細に記述されるべきである。
7.研究者は、研究の特徴(例えば、母集団、文脈、履行の忠実度)を記録しておくべきである。
8.研究者は、自分たちの研究を再現し、再現する努力を促進するために必要な文書化、キュレーション(情報集約・公開)、共有活動に従事するために必要な資源を予算配分すべきである。
9.同意書と治験審査委員会(IRB: Institutional Review Board)の承認書には、可能な限り、将来のデータ公開に言及し、被験者のプライバシーを保護するための条件を明記すべきである。
10.研究者は、データ公開アクセスに関するポリシーを知っておく必要がある。
C. 研究成果の報告
11.出版物の主張を裏付けるために使用されるデータは、データ処理、スクリーニング方法、関連する統計分析、コードブック、分析コードと共に、公開レポジトリにおいて利用可能な状態にされるべきである。
12.研究者は、再解析研究や追試研究の結果を過去の研究とどのように比較したかを分析し、報告すべきである。
13.研究者は、データまたは被験者を除外するために用いた基準を明確に記述し、何らかの理由で除外された結果(特に、結果が主要な所見や仮説を支持しない場合)を含め、何らかの理由で報告書に含まれていない項目、結果、条件を記述すべきである。
14.資金提供機関への最終報告書には、どのようにしてすべてのデータと関連する補足文書が利用可能になり、アクセスできるようになっているかについての詳細を含めるべきである。
このようなガイドラインを受けて、今後、教育研究でも再現性を意識した研究が行われていくことが期待されています。
まとめ
教育学分野では、心理学分野と共通した再現性に関する問題点に加え、教育学分野独自の問題も抱えていると考えられます。再現性問題をトゥールミンモデルに基づき整理すると下図のようになります。本来、紺色で示す通り、データに基づき政策や教育実践が(エビデンスの母集団に限定された範囲で)決定され、その論拠や裏付けには、統計学に基づく将来の再現性や予測がありました。このロジックは、イデオロギーが入り込まない限り歪まないというモデルでした。しかし、赤で示す通り、研究不正や研究デザイン上の限界から統計学という裏付けが崩れ、再現性の危機が発生し、論拠が揺らいでいます。また、教育分野ではデータの積み重ねに乏しいことに加え、サンプリングの問題から一般化可能な母集団の範囲が不明瞭という問題も発生しています。
研究不正への対応としては、再現性に関するガイドラインが提案され、再現性を意識した教育研究への変革が求められています。研究デザイン上の限界については、新しい分析手法で乗り越えようとする試みが行われ始めています。今後日本においても、このような動きが広まるよう情報収集と普及に努めたいと思います。
長文にも関わらず、最後までお読みいただきありがとうございました。
コメント等、お待ちしております。
参考・引用文献
Bem, D. J. (2011). Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407-425.
Biesta, G. (2007). Why “What Works” Won't Work Evidence-Based Practice and the Democratic Deficit in Educational Research. Educational Theory, 57, 1-22.
Fidler, F. (2019.3.7) Tweet: please register complaints about this timeline within the next 12 hours. https://twitter.com/fidlerfm/status/1103510188923994113
Galak, Jeff and LeBoeuf, Robyn A. and Nelson, Leif D. and Simmons, Joseph P. (2012). Correcting the Past: Failures to Replicate Psi. Forthcoming, Journal of Personality and Social Psychology. https://ssrn.com/abstract=2001721
Goodman, S. N., Fanelli, D., & Ioannidis, J. P. A. (2016). What does research reproducibility mean? Science Translational Medicine, 8(341), 341ps12.
原田隆之(2015)『心理職のためのエビデンス・ベイスト・プラクティス入門 エビデンスを「まなぶ」「つくる」「つかう」』金剛出版.
Hargreaves, D. H. (1996). Teaching as a research based profession: possibilities and prospects. London, Teacher Training Agency.
長谷川祐介(2019)「エビデンスを「つくる」ことと「つかう」こと」『「エビデンスに基づく教育」の閾を探る』春風社.
Hattie, J. (2009): Visible Learning: A Synthesis of over 800 Meta-Analyses Relating to Achievement, London: Routledge, Taylor & Francis.
岩崎学(2014)「統計的因果推論の考え方」『現代思想』42(9), 86-97.
国里愛彦(in press)「再現可能な心理学研究入門」『専修⼈間科学論集 ⼼理学篇』10(1). https://psyarxiv.com/x8js5/
中村大輝・山根悠平・西内舞・雲財寛(2019)「理数科教育におけるテクノロジー活用の効果 ―メタ分析を通した研究成果の統合―」『科学教育研究』43(2), 82-91.
National Research Council. (2002). Scientific Research in Education. Washington, DC: The National Academies Press. https://doi.org/10.17226/10236
Nature (2016). Nature ダイジェスト Vol. 13 No. 8 | doi : 10.1038/ndigest.2016.160822
西垣通(2016)『ビッグデータと人工知能―可能性と罠を見極める』中公新書.
Peng, R. D., Dominici, F., & Zeger, S. L. (2006). Reproducible epidemiologic research. American Journal of Epidemiology, 163(9), 783–789.
杉田浩崇(2019)「「エビデンスに基づく教育」という問題圏」『「エビデンスに基づく教育」の閾を探る』春風社.
変更歴
2019年12月14日:記事公開
2020年3月9日 :下記のリンクのやり取りを踏まえ、表現を微修正。
この記事が気に入ったらサポートをしてみませんか?