見出し画像

卒論のために回帰分析をおさらい

⚠️統計使わない人には意味不明なnoteなので読み飛ばしちゃってください!!!!!!!

 筆者は現在、卒論執筆中である。でもなかなか進まない。データを集められない。t検定ってなんだっけ?p値って?ずっと数字から離れていた文系学生からすると頭が痛くなる。
 ということで、なかなか卒論に手をつけられない自分のために統計手法を軽くおさらいしようと思う。※分散とか標準偏差とかはギリギリわかるレベル。

回帰分析とは
単回帰分析や重回帰分析、ロジスティック回帰分析などよく聞くやつ。データを数式(回帰式)で表すことで、複数データの因果関係を推定したり予測値を求めたりする手法。なお、目的変数は調べたい変数、説明変数は目的変数に影響を与える変数のことを指す。説明変数が1つの時は単回帰分析となる。

分析結果の見方☆

<R2乗:決定係数>回帰式が目的変数の変動具合をどの程度説明できているかを表す指標のこと。0~1で表され、1に近いほど回帰式が適当なものだと言える。

<補正R2>R2乗は説明変数を増やすと1に近づく。そのため、説明変数が複数になる重回帰分析では補正R2を見る。その名の通り、決定係数を補正したもの。

<有意F>重回帰分析を行う際、説明変数は相関関係のないデータを選ぶ必要がある。有意Fを見ると、データの組み合わせが適当であったかがわかり、有意Fが0.05もしくは0.01未満であれば、回帰式が有意であると言える。

<t値>これはちょっと理解が難しい。まず、t分布を理解しないといけないのだが、数式恐怖症なので計算式は割愛。(t分布を表すt分布表は正規分布表のようなもの。母集団の95%は信頼にあたるものと考え、起こり得そうにないデータが起こるという仮説が95%に入らないことを目標とする。うう、何を言っているんだろう。)とりあえず、t値の絶対値が大きいほど、その説明変数が目的変数に与える影響が大きいと言え、2未満であれば影響力を持たないと言える。

<p値>説明変数一つ一つが目的変数に関係しているかを表す。0.05未満であればその説明変数は目的変数に関係していると言える。非信頼区間は5%だから。

・・・ここまで、自分なりに教科書やらWEBサイトを見てまとめてみたが、さっぱりわからないのでとりあえず、Excelで回帰分析をしてみる。勢いだっ!

兵庫県のGDP推移を目的変数においた回帰分析

 卒論では使わないが、今回は兵庫県のGDPを目的変数に、企業数・人口・貸出金(銀行貸出残高)(2001~2018年)を説明変数に置く。Excelで回帰分析のやり方はタブ「データ」からデータ分析を選択。「回帰分析」を選ぶ。Yに目的変数を範囲指定し、Xに説明変数を範囲指定する。このとき、文章は入れられないので分析後の表にある企業数・人口・貸出金などの文章は書き替えた。

表を見るに、、、

R2乗・・・0.80。OK
補正R2乗・・・0.76。OK
有意F・・・3.01E-0.5=0.000301。OK
企業数のt値/p値・・・t値=1.40。あ…。p値=0.18。うわん。
人口のt値/p値・・・t値=‐7.21。OK。p値=4.46E‐06。よし!
貸出残高のt値/p値・・・t値=‐1.28。泣いちゃう。p値=0.22。だめだ。

有意水準だけわかってたらいいかなと思ってたけど、根本を理解してないから改善が難しい。詳しい人いたら教えてください。とりあえず、この回帰分析が成功していたとして、読み取れるのはGDP推移に人口推移は関係し、企業数の変化や銀行貸出残高の変化は関係しないということ。企業数は規模がバラバラだからGDP推移に寄与しないということはわかる。しかし、銀行の貸出残高が関係しないというのは意外だった。

 発表日が迫っているが、有意な分析は未だできていない。卒論は終わるのだろうか。泣

 文系を一括りにはしたくないけどぼーっと生きてる文系のアカデミックレベルはこの程度。ただただ親に申し訳ない…。

いいなと思ったら応援しよう!