重回帰分析における相対的重みづけ分析:名畑目 (2021, 読書科学)のデータを用いて
最近何かと話題の心理学における重回帰論文(吉田・村井,2021)だが,分野はやや違えど,先日公開されたばかりの読書科学の拙著(名畑目 ,2021)も重回帰分析を行っていることもあり,関心高く読んだ。自分の理解不足を文字通りに痛感したころだが,とりわけ偏回帰係数の解釈に関する問題は名畑目 (2021) にも明確に当てはまっているように思う。重回帰論文の中では偏回帰係数の解釈にについて細かく分解して議論されているが,そのうちの1つは平たく言えば,目的変数に対する特定の予測変数の重要度を偏回帰係数に基づいて議論できないというものである。この点に関連する名畑目 (2021) の記述は以下である。
文の意味的な関連度は,当然,文間の語彙の重複によっても影響を受ける(重複する語彙が多いほど文の意味的な関連度は高くなる)ため,この指標は先に述べた動詞の重複に関する指標と概念的に重なる部分があるともいえる。しかしながら,実際にはこれら2つの指標の間には中程度の相関しか見られず(r=.46),ステップワイズの変数選択による最終的なモデルにも両方の指標が含まれていることから,これら2つの指標は難易度の予測にそれぞれ直接的な貢献をしていたと考えるほうが妥当である。しかしながら,表3の標準偏回帰係数(β)を見る限り,動詞の重複のほうが文の意味的な関連よりも難易度に強く関係していることは明らかである。(p. 153)
前後の文脈や背景知識がないと分かりにくいと思うが(できれば論文全体を読んで頂きたいが),最後の太字にした1文が上記の問題に該当する箇所であることは分かると思う。ここでは,回帰モデルに含まれている「文間の動詞の重複 (adjacent_overlap_2_verb_sent )」という予測変数と「文間の意味的な関連度 (lsa_1_all_sent )」という予測変数が概念的に重複しているものの,多重共線性といえるほどの相関はないことを述べたうえで,2つの変数の目的変数(文章難易度)に対する重要度を偏回帰係数に基づいて比較して述べている。この点については,正直に言って再検討と訂正が必要であろう。
それでは,どのようにこの点を再検討できるのかを思案していたところ,以下のツイートにより相対的重みづけ分析というものを知った。
相対的重みづけ分析の説明は以下のページに分かりやすく書かれているのでそちらをご覧いただきたいが,簡潔に言えば目的変数に対する予測変数の相対的な重要度を算出するための分析である。
これが,外国教育研究者の中でもお世話になっている人が多いlangtest(統計分析のウェブアプリケーション)で可能になったということである。そこで,実際にその機能を使って名畑目 (2021) のデータを(再)分析してみた。なお,名畑目 (2021) ではRによって重回帰分析を行っていたが,langtestも裏でRを走らせているため,相対的重みづけ分析の機能で得られた重回帰モデルは論文中のモデルと各種の値が全て一致していた。そのため,以下の結果は名畑目 (2021) の論文で報告された回帰モデルと同一のモデルに基づくものと解釈してもらって差し支えない。
相対的重みづけ分析の結果は,以下の通り。
R-squared For the Model:
[1] 0.3926441
The Raw and Rescaled Weights:
Variables Raw.RelWeight Rescaled.RelWeight
1 adjacent_overlap_2_verb_sent 0.13741273 34.99676
2 lsa_1_all_sent 0.05319211 13.54716
3 all_temporal 0.12615710 32.13014
4 repeated_content_lemmas 0.07588215 19.32594
BCa Confidence Intervals around the raw weights:
Variables CI.Lower.Bound CI.Upper.Bound
1 adjacent_overlap_2_verb_sent 0.06231004 0.2280106
2 lsa_1_all_sent 0.01711462 0.1098636
3 all_temporal 0.04995254 0.2230188
4 repeated_content_lemmas 0.02212040 0.1544556
BCa Confidence Interval Tests of significance:
(If 0 is not included, weight is significant at p < .05)
Labels CI.Lower.Bound CI.Upper.Bound
1 adjacent_overlap_2_verb_sent 0.048610530 0.2285941
2 lsa_1_all_sent 0.003320477 0.1102127
3 all_temporal 0.036674194 0.2200887
4 repeated_content_lemmas 0.007804660 0.1545971
この結果を見ると,問題となっていた「文間の動詞の重複 (adjacent_overlap_2_verb_sent )」のRaw.RelWeightは「文間の意味的な関連度 (lsa_1_all_sent )」の約2.58倍となっている。なお,Raw.RelWeightはすべての変数の合計がモデルのR2値と合致する。また,Rescaled.RelWeightに基づけば,モデルが説明する分散を100%としたとき「文間の動詞の重複 」は約35%,「文間の意味的な関連度」は約14%を説明していることになる。
また,以下のようにこれらの結果を可視化したものもアウトプットされる。
先のRaw.RelWeightの値を見る限りでは,「文間の動詞の重複 (adjacent_overlap_2_verb_sent )」のほうが「文間の意味的な関連度 (lsa_1_all_sent )」よりも文章難易度に関連している(相対的に重要である)という解釈は可能そうであるが,上のグラフのエラーバー及び信頼区間の詳細の値を結果で確認すると,これら2つの信頼区間に若干の重なりがある。そのため,論文中のように動詞の重複のほうが文の意味的な関連よりも難易度に強く関係していることは「明らかである」とまでは言い切れないかもしれない。それよりも,もっと本質的なところは「標準偏回帰係数(β)を見る限り」ではなく,上記のような相対的重みづけ分析によってこのような議論をすることが適切である。
非公式ではあるものの,今回自身の論文の分析と解釈について再検討・訂正できたのは,langetestに相対的重みづけ分析の機能が実装されたことが大きい。今後は自身でRを動かして実情に応じて分析を行えるようになりたいと思うが,この機能がなければ今回の点についてこれほどまでにすぐに再検討・訂正する機会は得られなかっただろう。langtest開発者の水本先生にはこの場を借りて深く御礼申し上げたい。
上記の内容について,もし解釈や運用上の間違いがあったら是非ご指摘いただきたい。もちろんこの他にも検討されるべき種々の問題はあることは理解しているが,今回はとりわけ顕著な点について再検討・訂正を行った。今回の事例を通して,外国語教育研究の分野でも使用されることの多い重回帰分析について,このような方法があるということをぜひ多くの方々に知ってもらいたいと思う。
※2021年6月17日追記
水本先生がRelative Weight Analysisに新たな機能を追加してくださいました。こちらも勉強させていただきたいと思います。