データ分析におけるexplanationとpredictionの違い
ここ数年でいろんなデータを統計分析を使ってモデリングしたり,簡単な機械学習を使って分析するということが増えた中で,疑問というか,少し戸惑っていることがあった。
モデルの予測の精度を上げるためにはこの要因を入れるほうが良いんだけど,それがあまり理論的には意味がない要因であるというケースだったり(たとえば文章難易度を予測するのに総語数を入れるとか;もちろんこれも場合によっては入れるべき時もあるが),よりよい予測をするためにはもっと多くの要因や複雑な機械学習が必要なのではないか,でもそれをするとモデルが複雑すぎたりブラックボックス化してしまうのではといったことだ。
そんなふうに考えている中で以前にも言及した以下の論文を読んでいると,ちょうどこの辺りのことに関連した記述があったので書き留めておこうと思う。
D’Mello, S. K., Southwell, R., & Gregg, J. (2020). Machine-Learned Computational Models Can Enhance the Study of Text and Discourse: A Case Study Using Eye Tracking to Model Reading Comprehension. Discourse Processes, 1-21. https://doi.org/10.1080/0163853X.2020.1739600
この論文の本質的な箇所ではないのだが,Literature Reviewのところで以下のような記述があった。
Deep learning models are extremely complex with the number of free parameters in the tens to hundreds of thousands, so they require copious
amounts of training data and their interpretability is low. They also have very few theoretical commitments and are basically very powerful prediction machines. As Table 1 illustrates, there is a tradeoff between theoretical commitments, explanation versus prediction, and the amount of data needed to train viable models. In most cases we recommend experimenting with standard regression modeling and standard machine learning as these two approaches appropriately balance these tradeoffs. (p. 422)
ここではexplanationとpredictionという用語で,先に述べたような2つの考え方・アプローチを区別しているのかなと思う。この引用部分の前後も合わせて解釈すると,前者は特定のデータを説明するためにモデルを構築することに重きを置いていて,モデルの理論的な側面についても重視するが,後者はデータ(の一部)からモデルを構築し,それが新たなデータの予測にも適用できることを重視する。そして,これら2つはトレードオフの関係があり,前者を重視すれば得られたモデルの解釈可能性が高くなるがその精度は十分でない可能性があり,後者を重視すれば精度が高くなる一方でモデルの理論的な解釈が難しくなる。この研究ではこのバランスを取るために標準的な回帰モデルあるいは機械学習というのを推奨しているわけだが,具体的にはmachine-learned computational models (MLCMs) と呼ばれるものが使われ,読解中の視線計測指標からその後の多肢選択式の解答パフォーマンスを予測するというモデルを作っている。
explanationとpredictionという概念の区別,そしてこれら2つは関連はするがconflictingな目的となり得るという説明は,これまでのモヤモヤとした考えを整理してくれたように思う。そして,そのバランスを取ったアプローチが必要という考えも,今後の研究や勉強において1つの役立つ指針になりそうだ。