見出し画像

早慶現役本命率の重回帰分析をやってみました

以前に、大学入試の早慶現役本命率(早慶本命率)と高校入試の駿台中学生テスト偏差値の回帰分析を行いました。その際は、シンプルに1次回帰を行ったのですが、後日に残差の分析を行ったところ、それなりに残差があることがわかりました。大きく傾向を捉えるのには使える感じではありますが、精度は必ずしも高くなかったようです。

この時の分析に対して、ある方から「早慶本命率は東大の併願傾向によっても影響を受ける」というようなアドバイスをいただきました。そうであれば、複数の説明変数で重回帰分析を行ったら、精度が上がるかもしれません。そこで、いくつかの説明変数を使って、重回帰分析をやってみました。

ただ、普段の仕事(経営企画)で重回帰分析を行う業務はほぼないので、重回帰分析は17年ぶりです。ネットで調べながら記憶を辿って分析しているので、ちょっと不安です。もし、間違いや解釈が怪しいところがあれば、コメントをいただければ有り難いです。

0. 結論

  • 大学入試における早慶本命率は、その高校の入試偏差値に対して負の相関をし、その高校から東京までの距離に対して正の相関をするが、国立志向/私立志向、現役志向、男子校/女子校、公立/私立・国立の違いの影響は見られなかった。ただし、重回帰の決定係数は必ずしも高くない(補正R2=0.2464)。

  • 一方、対象から本命率100%を除外した上で、首都圏の入試偏差値50以上(駿台中学生テスト)の高校に限定すると、重回帰の決定係数は一定の水準まで上昇する(補正R2=0.6204)。この場合の早慶本命率は、その高校の入試偏差値、国立志向や現役志向の度合いに対して負の相関をしている。

  • 首都圏と地方では早慶の位置付けが異なることで、全国レベルと首都圏レベルの違いが出ていると考えられる。

1. 分析対象高校

以下のサイトに早稲田大と慶應大の現役進学者数が掲載されている524校のうち、次の4つの条件を満たした高校を抽出して、精査しています。
①高校募集をしている
②早慶附属高校ではない
③駿台中学生テストの判定偏差値が設定されている
④早稲田大と慶應大の現役合格者数も入手できる

分析対象年度は2022年度入試となります。この年度は過去にある程度データを整備したことがあり、今から最新年度のデータ収集をするのは大変なので、少し古いですが、この年度にしました(それでも追加データの入力に1週間かかりました)。

後述するように進学数と合格数がデータソースが異なるため、データを入力した後に、数字の突合も行っています。その際、早慶上理合格者数が、実数で10人かつ率で10%以上のズレが出た高校は除外しています。

こうした整理の結果、最終的には、215校の高校が分析対象となりました。分析対象を一覧にするとこの表になります。首都圏の高校募集を行わない中高一貫は含まれていないことから、公立高校が51%とやや高めです。また、所在地は関東で約6割であり、西日本は少ない傾向となっています。

表1

2. 変数の設定

①被説明変数=早稲田大学と慶應大学の現役本命率(早慶本命率)。

早慶本命率=(早稲田の現役進学者+慶應の現役進学者)÷(早稲田の現役合格者+慶應の現役合格者)。現役進学者数は上述のサイトの記載数、現役合格者は各高校のホームページまたはインターエデュから引用しています。いずれも2022年度入試です。現役が対象なのは、元データが現役進学者を掲載していたためです。

②説明変数(連続値)

  • 高校の入試偏差値
    駿台中学生テストの確実圏偏差値の男女平均値(単純平均)。2022年度第5回のものです。この年度を用いるのは、上述と同じ理由で、手元にデータが整備できていたためです。

  • 県庁所在地距離
    その高校がある都道府県の県庁所在地から東京の県庁所在までの距離。その高校に通う生徒の自宅から早慶の大学キャンパスまでの地理的距離の代替指標として扱います。こちらのサイトで調べました。
    https://hayanavi.com/geography/between-cities/tokyo.html

  • 東京一工マルチプル
    東京一工合格者の早慶合格者に対する倍率です(東京一工=東大+京大+一橋大+東工大)。東京一工の合格者数÷早慶合格者数で計算しています。早慶と東京一工は学力レベルが近いという前提の下、高校の国公立志向/私立志向の代替変数として扱います。国公立志向が強いと大きくなり、私立志向が強いと小さくなります。学校の志向を見る指標なので、現役・浪人合算で計算しています。

  • 早慶現役比率
    早慶の現役合格者÷早慶の合格者全体で算出しています。高校の現役志向の代替変数として扱います。保守的な校風の高校はこの数字が大きくなり、浪人覚悟でチャレンジする高校は低くなると考えられます。

③説明変数(離散値=ダミー変数)

  • 男子校フラグ
    男子校の場合は1、そうでない場合は0とします。

  • 女子校フラグ
    女子校の場合は1、そうでない場合は0とします。男子校フラグと組み合わせることで、両方とも0の場合が共学となります。

  • 公立フラグ
    公立高校(都道府県立)の場合は1、私立・国立の場合は0とします。国立は数が少ないので、フラグは独立させずに私立と合わせました。

④データサンプル

上記の変数を並べたデータのサンプルはこのようになります。緑の列が重回帰分析に使う数字です。いくつかの変数には、最大値(ブルー)、平均値(イエロー)、最小値(オレンジ)にマークしています。

表2

3. 多重共線性のチェック

重回帰分析では説明変数の間に相関が強いと、間違った分析結果が出てしまうので、簡単にチェックしておきます。

①相関係数

被説明変数(早慶本命率)も含めて変数間の相関係数を計算してみました。オレンジ枠のところが相関係数が相対的に高めですが、いずれも0.5未満(決定係数で0.25未満)なので、そんなに心配する必要はなさそうです。逆に、早慶本命率に対して一定の相関がある説明変数がなさそうなのは、少し心配です。

表3

②VIF(Variance Inflation Factor)

変数間の多重共線性を検出する指標であるVIFも計算してみました。ExcelのMINVERSE関数を使って、上記の相関係数から早慶本命率を除いた部分の逆行列として計算されています(なぜ逆行列なのかの理屈は忘れました)。

斜めのオレンジのセルが各変数のVIFですが、最大でも1.633で3を超えるものはないようです。これで正しいのかは自信はありませんが、多重共線性は検出されなかったということで、重回帰分析に進んでみます。

表4

4. 重回帰分析

①対象高校すべて(215校)

被説明変数=早慶本命率、説明変数=入試偏差値、県庁所在地距離、東京一工マルチプル、早慶現役率、男子校フラグ、女子校フラグ、公立フラグとして、対象の215校に対して重回帰分析を行うと、このような結果となりました。

表5

重回帰の決定係数の補正R2=0.2464とあまり高くないですが、有意Fは1%未満であり、早慶本命率に対する説明変数としてのこれら7変数の組み合わせは良さそうではあります(組み合わせに意味がないということは言えない)。

一方、それぞれの変数を見ると、入試偏差値と県庁所在地距離では、t値の絶対値が5を超えて、P値が5%(0.05)を下回っています。このことから、これらの2つの変数が早慶本命率に一定の影響を与えていることがわかります。また、東京一工マルチプル、早慶現役率、男子校フラグ、女子校フラグ、公立フラグはP値がかなり大きいことから、早慶本命率にあまり影響を与えていないようです。

単純に行った重回帰では期待通りの相関が確認できませんでしので、ここから精査してきます。そのヒントを得るべく、試しに早慶本命率と入試偏差値の散布図を作ってみました。横軸(X軸)が入試偏差値、縦軸(Y軸)が早慶本命率です。

グラフ1

この相関係数は、表3のにあるようにR=-0.298であり、決定係数はR2=0.089とほぼ相関が見られない数値です。本命率100%の高校(赤の破線)が異常値として影響している可能性があります。

また、以前のサンプルの分析では決定係数が0.5程度で弱い相関が確認できたことを考えると、違う結果となってます。ただ、グラフをよく見ると、緑の破線で囲った部分は右肩下がりで相関がありそうです。一方、黄色の破線の部分(入試偏差値50未満)はほぼ相関がないようです。

過去のサンプル分析では、首都圏の難関高校のみを取り上げていたので、おそらく緑の部分で評価していた可能性があります。そこで、対象データを取捨選択したら、重回帰分析にどう影響が出るか見ていきます。

②本命率100%を除外(▲17校)

本命率100%は合格者数が少なく、一般入試に比べて指定校推薦が多い場合などに起こりうると考えられます。これは一般入試の入試偏差値を説明変数とするには不適切なので、散布図の赤破線で囲まれた高校を除外します。

その結果、対象高校は198校となり、これに対して重回帰分析を行うと、このようになりました。補正R2=0.2402とまだまだ低いです。ただ、早慶現役率のP値が0.0411(4.11%)と5%を切り始めました。

表6

③さらに入試偏差値50未満を除外(▲82校)

入試偏差値(駿台中学生テスト確実圏偏差値)が50未満の高校は、ボリュームゾーンがMARCHや地方国公立より下と考えられます。こうした高校では、早慶に合格できる生徒は学校の学力レベルというよりも、その高校の上位層の個人に依存すると考えられます。そのため、旧帝大・早慶がボリュームゾーンの高校(入試偏差値50以上)から切り離して分析してもよいと考えられます。

この分離を行い、入試偏差値50以上の高校(116校)のみに重回帰分析を行った結果がこの表です。補正R2=0.4514まで上がり、やや弱めの相関までは確認できました。ただ、決め手に欠ける感じです。

表7

④さらに首都圏以外の高校を除外(▲59校)

早慶本命率が入試偏差値に負の相関、県庁所在地距離に正の相関をしているということは、高校の所在地が東京から離れれば離れれるほど、重回帰は相関しにくくなるということです。この傾向を確認した上で、県庁所在地距離の影響を抑えるべく、対象を首都圏(東京・神奈川・千葉・埼玉)の高校に限定します。

結果、57校に絞られた対象高校に重回帰分析を行うと、このようになります。補正R2=0.6204に上昇し、重回帰全体でもある程度の相関がありそうな形にできました。

表8

変数を個別に見ると、入試偏差値はP値0.0008と一定の相関を残しつつ、県庁所在地のp値が0.1579と大きく上昇しています。首都圏では多少の距離の差は本命率に影響を与えないようです。

一方で、ここに来て、東京一工マルチプルと早慶現役率のP値が0.01(1%)を下回りました。このどちらも負の相関なので、国公立志向と現役志向が強いほど、早慶本命率が下がるようです。この部分については、もう少し分析が必要と考えます。

念のために、この57校の多重共線性もチェックしておきます。こちらも問題はないレベルですが、全体的に最初の数値よりも上がっており、VIFが3に近い説明変数もあるようなので、少し注意は必要かもしれません。

表9

5 . 最後に

かなり久しぶりの重回帰分析なので、この解釈でいいのかは怪しいですが、冒頭の結論に書いたようなことがわかりました。早慶本命率は全国レベルで見るのと、首都圏に範囲を絞って見るのでは、入試偏差値以外の影響を与える要因が異なるようです。首都圏と地方では、早慶の位置づけが少し違うのだろうと考えられます。

一方、東京一工マルチプルや早慶現役率が首都圏エリアだと影響を与えるのは、疑問が残っています。また、男子校/女子校/共学の違い、公立/私立・国立の違いが本当に影響を与えていないかも少し疑問です。せっかくデータセットを作ったので、もう少し分析は行ってみようと思います。

この記事が気に入ったらサポートをしてみませんか?