線形回帰とその応用_概略
どうも!
セイタです!!
北京大学社修士課程で社会学を学んでいます。
この一連のマガジンでは、自分が北京大学で「どのような授業を受講したのか」、「どのような授業の進め方なのか」、「課題をどのようにクリアしていったのか」について執筆していきたいと思います。
対象としている読者は
・中国の大学に興味がある。
・社会学修士に興味がある。
・海外の大学院に興味がある。
方を想定しています。
もちろん当てはまらない方でも全く問題なく読める内容となっております。
自分は2022年秋学期に
・社会学方法論(2コマ)
・社会学理論(3コマ)
・線形回帰とその応用(4コマ)
・中国概況(3コマ・留学生用)
・中国語基礎高級(4コマ・留学生用)
計15コマ分を履修していました。
この記事ではその中でも《線形回帰とその応用(线性回归与其应用)》という授業について書いていきたいと思います。
授業概略
この授業では、大学院で必要とされる最低限度の定量調査スキルの習得を目的としています。
以下、この授業のレジュメです。
この授業では、自ら手を動かして統計ソフトを扱うことができます。なので、統計学の理論と実務の双方を学べる講義となっています。
実際に扱ったテーマとしては、復習を除けば、
・T検定
・分散分析
・線形回帰(+nested model)
・ロジスティック回帰
・パス分析
となります。
自分は統計検定2級を持っていたのですが、線形回帰までしか勉強していなかったので、そこから先は少し苦労しました。特に線形回帰のおまけで扱われたNested Modelは定量調査の実務では必須なのでしょうが、日本語だとまとまった情報がなく、苦労しました。ロジスティック回帰は地味に難しかったです(笑)
以下、自分が統計検定で2級を取った時に行った勉強法になります~
先生の経歴
次に先生の経歴について簡単に記述しておきます。
経歴は
・学部は杭州大学
・修士も杭州大学
・博士が中国人民大学
となっています。
人口学をメインに研究している先生です。
北京大学の社会学で定量調査を教えている先生は人口学を研究分野に持っている人が非常に多いです。
ちなみに、自分の指導教官も人口学を専門としています。
穏やかで優しそうな先生です。
授業の進め方
この授業は先生の講義を中心としつつも、学生も実際にSPSSを操作することで、統計学及び統計ソフトの使い方を学ぶことができます。
この授業は4時間ぶっ通しで行われます💦
最初の2時間は教室で統計学の理論についての座学を、次の2時間はコンピュータールームに移って、パソコンでSPSSを使いながら統計解析を進めていきます。
※自分は日本からオンラインで受けていたので、どのような雰囲気かわかりません、、、
仕方ないといえば仕方ないのですが、オンラインで受ける学生が毎回4,5人しかおらず、大多数が教室で授業を受けているため、オンラインの学生への配慮が足りません。
例えば、先生が公式の展開を黒板に書きながら、説明しているのですが、肝心の黒板がオンライン上に写されてていないということがよく起こっていました。
また、自分はそこまで感じなかったのですが、一緒にオンラインで授業を受けていた中国人の同級生は以下のように授業を酷評していました。
※専門は定性調査ですが、学部で統計学をしっかりと学んだいた子です。
と言っていました。
授業の内容を見ても確かに、ゼロから学ぶにしてはちょっと重すぎる内容だなと思います。自分は統計検定2級を取っていたので、一定の基礎はあったため、中国語でどういった表現をするのか、SPSSをどうやって運用するのかだけが課題だったので、セメスターの前半はかなり楽でした。
先生も上記内容を考慮して、2時間の補修を実施していました。とはいえ、焼け石に水感が否めません。自分は統計検定2級とるのに、2か月かかっていたので、、
課題とテスト
最後に課題について簡単にお話しさせていただきます。
この授業の成績は
・宿題(50%)
・期末テスト(50%)
によって成績が決まります。
宿題は5回あり、そのテーマが以下の内容になります。
①復習
②分散分析と単回帰分析
③重回帰分析
④ダミー変数
⑤ロジスティック分析とパス分析
①復習
復習内容として以下内容が出題されました。
・統計学上の誤謬
・平均値や標準誤差、修正済み標準誤差の処理
・正規分布及びその統計量
・T検定の結果の読み取り
などです。
穴埋めと計算問題がありますが、そこまで難しくありません。
それとは別に実際にSPSSを使ってみて、
CFPS(China Family Panel Survey)というデータを使って、ちょっとした統計をするという実践問題もありました。
内容が簡単だったので、パパっとできると思っていたのですが、SPSSの基本の操作に思いのほか躓いてしまいました💦
なので、以下の超初級本を買って、事なきを得ました。
内容としては本当に初歩の初歩から扱っています。練習問題を全部解いても4時間で読了しました。
個人的にはここまで簡単なものは必要なかったかなと思いますが、宿題できなくて焦って買いました(笑)
ちなみに、STATAが使える子はSTATAを使っても構いません。STATA用のデータセットとコードも提供されます。
②分散分析と単回帰分析
二回目の宿題は以下の内容が出題されました。
・ANOVA(分散)の定義
・分散分析結果の読み取り
・単回帰分析の方程式
・回帰分析の前提条件
・単回帰分析の計算問題
です。
ここもそこまで難しくはありませんでした。
まだまだ基礎といった感じです。
③重回帰分析
・重回帰分析にまつわる正誤問題
・重回帰分析の決定係数や各係数、その意味の説明
・相関係数、TSS、ESS、標準誤差などに関する用語説明
・重回帰分析の結果解釈
・nested modelの結果解釈
前半の重回帰分析はそこまで難しくありません。
自分はこの辺までは統計検定2級取得のために勉強していたので。
ただ、nested modelは勉強したことがなかったため少し戸惑いました。一度理解すればなんてことないのですが、、、
④ダミー変数
定質的なものを定量的に扱うためにフラグ付けを行うときに使う変数をダミー変数と言います。
この回の宿題はダミー変数をどのように使うかがいろいろな角度から問われました。ただ、基本的には簡単です。
統計学というよりはデータ処理のテクニックみたいになります。自分は社会人を経験しており、実務でデータ処理をしていたので、この辺は慣れてました。
⑤ロジスティック分析とパス分析
この宿題はかなり難しかったです。
そもそもロジスティック回帰を学んだことがありません。また、ロジスティック回帰は対数であるLogを使ったり、出力された結果がオッズ比であらわされるために回帰分析に比べてトリッキーです。
パス分析はWebマーケティングの分野で良く用いられますが、統計学の入門クラスで学ぶことはあまりありません。
※きっと多くの文系Webマーケッターは出力された数字の意味を本質的に理解せずにWebの運用を行っているはずです。
宿題として出されたのは、
・ロジスティック分析の定義
・ロジスティック回帰モデルの読み取り
・パス分析の計算
となります。
このように単元ごとに宿題が出されるので、逐一理解度が確認できます。
ちなみに、宿題の平均点はざっくり90点強だったそうです。一方自分は90点弱でした、、
まあ、修士で専門を変えており、外国語で授業を受けている割には善戦しているということで、、、
期末は修士課程には珍しく、持ち込み不可のテストです。
特に過去問などは手に入らなかったので、今までの宿題を5週解いておきました。ただ、宿題の解答は基本的にもらえなかったので、期末試験対策には苦労しました。
コロナ対策時でなければ、ゼミの先輩から過去問もらったり、同期に教えてもらったりできたかなと思います。
なお、この授業の成績は平均で88点で、自分も平均くらいの成績でした。
この授業の先生のように成績の分布まで出してくれたのは、学部も含めて人生で初めてでした。
ということで、今回の記事は以上となります。
長い記事ですが最後まで読んでいただきありがとうございます。
このマガジンでは引き続き、北京大学社会学修士の授業について執筆していきます。
もし気に入っていただけたならば、
スキとフォロー、マガジンの購読よろしくお願いします~