成田悠輔のコロナモデルが10分で読める!ver.3 中学数学で重回帰分析!
10分で重回帰分析を説明します
TeX表記がバグっていたので平打ちで書き直します、スミマセン。確認不足でした。β 1 とか、b1の 1 はホントは小さい 1 なんです、それで、TeXという表記を使いたかったんですが、バグるんです。
あと、X は掛けるじゃなくて、エックスです、よろしくお願いします。
これは前のアカウントからだと、バージョン4か5くらいになる「中学数学で成田モデルを説明する」という、スキはつきづらいですが頑張っているトピックなので、とっつきにくいかもしれないですが、よく読んでみてください。一度じゃなくて、二度、三度読めば分かるように書いたつもりです。
y=β 0 +β 1 X 1 +β 2 X 2 +⋯+β n X n +ε
ちょっと、待ってー!
カンタンにするからー
y = a + b1 X1 +b2 X2・・・ + bp Xp
これでどう?
ただの方程式じゃない?
ε(イプシロン)は誤差項(ごさこう)だから無視していいよ。
なにがしたいのか、相撲の強さを例にします
身長と体重が相撲の強さに関係してそうじゃない?
でもトーナメントとか総当たりにすると、統計処理がとてもやっかいになるから、相撲ロボット相手にスコアが出るとするよ。
クラスに30人の男の子がいまーす。
相撲ロボット相手に勝負するの。
結果が、y、被説明変数。因果関係の結果のほう。
身長と体重だけだから
y = a + b1 X1 +b2 X2
こんなに短くなるよ。
aも無視していいの、定数だからいくつでも興味ないのよ。
興味があるのは、b1とb2、これらが説明変数です。因果関係の原因のほう、身長と体重はX1とY1。これにかかるb1とb2です。
大丈夫ですか、ここまで?
身長と体重、X1とX2にかかるb1とb2、それが、y、相撲の強さに影響しているの。因果関係。
このb1とb2を係数って呼ぶのね。この数字が知りたいの。
相撲じゃなくて、例えばモーターの回転速度とかタイヤの劣化具合とか。
30人を縦に身長、横に体重、逆でもいいけれど、プロットしてみると、なんとなく直線が引けるのがイメージできますか?
背が高い人ほど体重も思い傾向がありますからね。
そこで、エイヤッて直線をグラフに引いちゃうんだけれど、その方法が最小二乗法。
ちょっと待ってー
またカンタンに説明するからー
本当はベクトルをつかってややこしい計算をするんだけれど、概念は小さい三角形をいーっぱい作るんです。
いっぱいていくつかっていうと、30こ。クラスの人数分。
y = a + b1X1 +b2 X2
この式が30本あるのね。クラスの人数分。
グラフの点も30こあります。
その30この点から理想的な直線へイチバン小さな三角形を作っていくんです。最小「二乗」法なのは、直線から下になったらマイナスになって打ち消し合っちゃうでしょう?
だから二乗してから、三角形を小さくしていくのよ。
ちょっと説明不足かなー、点から真上と真横に線を出すんです。
そうするとどこかで、線にぶつかるでしょう?
そのときにすべての点は三角形を描けますでしょう?
そして線は直線。
そうやってぜんぶの三角形が理想的にイチバン小さくなったところの直線が、最初の重回帰分析の式になるんです。
ベクトルなんかイヤってかた、素晴らしい味方がいます。エクセルちゃん。
「LINEST関数」で検索してください。
グラフ付きのくわしい説明があるサイトが山ほどあります。
一度、30人のクラスを模擬的につくって、最小二乗法をやってみてください。もうそれで「重回帰分析」はマスターできます。
大学院の経済学、しかも金融工学やファイナンス系の院生がやることができちゃうんです。
なにか調べたいこと、自動車のスピードとなにかが関係しているかとか、疑問があったらデータを取って解析できちゃう。
それで興味が涌いたら、ベクトルの証明なんかにも手を出してみてはいかがでしょうか。
成田悠輔のどこがスゴイのか
上でさんざん「因果関係」というコトバを使いました。
それと似た、しかし間違えるとやっかいな概念に「相関関係」があります。
当然、身長と体重は相関関係がありそうですね。
この場合、むつかしいコトバで申し訳ないですが、「多重共線性」、マルチコリアニティー、和製略語でマルチコという現象が起こるのです。
これは「見かけ」の信頼度が上がってしまい、実際は身長と体重の相関関係が悪さをしていて「因果関係」は信頼できないという非常にやっかいなモンダイなのです。
そこで高度な統計的処理が必要になり、普通の学術誌の論文では3から4、多くても7から8の説明変数をつかっています。
ところが成田氏のコロナモデルの論文では二桁の説明変数がつかわれているのです。
yはコロナ患者の死亡者数でしょう、β のどこかに政府の助成金を入れているはずです。
政府の助成金がコロナ患者の救命の役に立たなかったというのが彼の論文の主旨のはずですから。
ところがβ におそらく住んでいる地域や人種などを入れ、おまけに「目の色」まで「コントロールしていた」と言っていました。
金融工学は数学とコンピュータサイエンスの知識が不可欠ですが、成田氏は「経済学者」と紹介されると、さりげなく「統計が専門で」とおっしゃることがありますね。
「タダのケーザイ学者じゃないです」とハッキリとはおっしゃらないですけれど。