(9):決定係数。またの名を分散説明率。これって何者?
学び始めて、約10年
放送大学に入学後、はじめて心理統計を学び始め、もう10年近くになります。はじめはもう、わからないことだらけだったのですが、さすがにいくつも教科書を読んでくると、話を理解する土壌ができてくるというか、ああ、こういう説明の仕方もあるのかと、余裕をもって読むことができるようになります。
因子分析という高い壁
放送大学で卒業論文、同大学院で修士論文を書くにあたり、わたしは「因子分析」という方法を用いてデータ分析をしました。すごい、因子分析ができるなんて! とか思わないでくださいね。分析はツールを使えばできます。因子分析がいったいどのような理論で成り立っているのかを、ひとつも知らなくても、こういうデータをとって、こういうパラメータで分析をして、結果はこんなふうに解釈して、というような実例は山ほどありますから。
固有値って何ぞ?
でも、なんとなくしっくりしなくて、因子分析ってどういう理論でできているのか、ということを、少しでも自分の言葉で説明できるようになりたいとは思っていました。手がかりになったのは「固有値」という言葉です。因子分析では、最初にデータ行列から「固有値」を計算し、値の大きい固有値の数を因子数として仮定するのです。で、固有値って何? 大丈夫、わからなくても分析だけはできます。私がそうでしたから。
線形代数
固有値、という言葉が学べるのは、線形代数(線型代数という表記もあります)の教科書においてです。たしかに、放送大学の線形代数の入門講義をみてみると、固有値も求め方が出てきました。講義を聞いて、簡単な行列で固有値を求め、固有ベクトルを求め、行列の対角化はこうするとできるんだなあ、ということはわかりました。
いやまて、それって因子分析と、どうつながるん? わからんぞ。
応用数学入門
きっかけになったのは、奈佐原先生の「大学生のための応用数学入門」という本でした。この本の、ごく最初の方に、分散共分散行列を用いて「主成分分析」をする手順が解説されています。
主成分分析≒因子分析?
なんだ、因子分析じゃないんだ、とがっかりすることはありません。統計の教科書の解説では、主成分分析と因子分析とは、もとになっている考え方は違うものの、分析の方法(というか、計算方法)はとてもよく似ていることが説明されています。当然、固有値も分析の途中に登場します。おお!
固有値すなわち分散という、奇跡のような。
詳しい説明はここではしませんが、主成分分析の手順をよくよく読んでいくと、分散共分散行列の主成分は、そのまま、各主成分の分散に一致するのです。そして、主成分の和(つまり各主成分の分散の和)は、当然のように、分析前の各変数の分散の和に一致するのです。
さらっと書いてますが、私はこれを、自分で必死に計算を追いかけて、奈佐原先生の本と同じ結論が出たときに、ひどく感動したのを覚えています。偏差二乗和をぜんぶ集めてきて、主成分を抽出して(これは座標軸をいい感じに回転させることにほぼ等しいのですが)、主成分ごとに偏差二乗和を集めてくると、ちゃんと一致する。
いや、数学の先生から見たら、そんなの当たり前じゃん、ということかもしれません。そんなことは、$${a^2+b^2=c^2}$$という式で、とうの昔にわかっている。何をいまさら。
そうなんです。三平方の定理は、こんなところでも有効でした。主成分分析は、偏差二乗和を集めてきて、なるべく一度にたくさん平方和を作れるような軸を探して、そこに割り振る。それを繰り返し、残ったほんの少しは悪いけどサヨナラして、変数を減らした方が人間にはわかりやすい。
因子分析と主成分分析の違いは
さて、因子分析は主成分分析と何が違うかというと、分析の方向、というか、モデルの方向が違いますね。主成分分析は、今観測されている変数を、いくつかの変数にまとめたい。分散が大きい順に主成分を決めるので、解がひとつに定まります。別の言い方をすると、記述統計的な分析です。
因子分析は、観測された変数の背後にあって、観測されたデータを生み出してきた要因(=因子)になる変数を推測する分析です。ですから、因子だけでは説明できない部分(残差)が想定されています。これは、解が定まらない。もっともそれらしい(あるいは解釈しやすい)解を、研究者が選ぶことになります。当然、他の研究者は、同じデータから別の解を選ぶかもしれません。そこが面白さでもあり、訳の分からなさでもあり。
結局、因子分析がわかったんかい?
いいえ。まだです。でも、分散というのが、主成分を用いた分析によってきれいに分割されること、その美しさに、私はけっこう感動しました。ここで終わりにしておくのも、いいのかもしれません。
決定係数の話は何処へいったの?
そうでした。
分散分析も、平方和を分割する分析です。回帰分析も、分散分析表を作れば同じように見ることができます。
独立変数の平方和をみんな集めてきて、それを、回帰直線を使ったら、平方和がこれだけになるよね、あとは残差だね、と分解する。これはつまり、従属変数の平均値という水平線ではなくて、回帰直線という傾きのある直線を使って平方和を計算しようよ、という提案です。
分散分析では、水準ごとに分けて見たら平方和がこれだけになるよね、あとは残差だね、と分解する。これはつまり、従属変数の平均値(全体平均)という水平線ではなくて、水準ごとの平均値という複数の水平線を使って平方和を計算しようよ、という提案です。
このとき、新しい方法で計算した平方和が、もとの平方和(つまり従属変数の平均値を使った平方和)の何%にあたるのか、が決定係数$${R^2}$$です。分散説明率とも言います。こっちのほうが、計算の手順にぴったり合っているような気がして、私は好きです。え? 何を決定しているのか、というタイトルをつけただろう、説明しろ、ですか。
うーん。難しいなあ。(逃げた!)
この数値$${R^2}$$は、定義上、0~1の値を取り、もちろん1に近いほうが、独立変数の選択がよかったことになり、研究者としては嬉しいのですが、心理学の研究では、それほど大きな値になることはありません。0.1とか0.2とか、せいぜいそんな感じでしょうか。何しろ、心理・社会的な現象の要因は山のようにありますからね。
というわけで。
とりとめのない話でしたね。これぞ雑談。
統計学の用語でもっとも重要な用語は何、と聞かれたら、「それは分散です」と、今も答えると思います。分散は美しいのです。
ということを説明する本をいつか書きたいと思うのですが。いつになることやら。生きているうちに書きたいぞ。