
成田悠輔のコロナモデルが10分で読める!ver.3 懲りずにやります
TeX表記に失敗しています、下書きの時点で正しく表示されていたので安心してアップロードしたあとの確認不足でした、すみません。
削除も考えましたが、TeXが読めるかたなら理解できるでしょうし、スキも頂戴し、コメントもいただいておりますので、残します。
平打ちで分かりやすく書きなおしたものは、こちらになりますので、TeXに馴染みのないかたは下部のリンクに飛んでください。
式以外は同じ内容です。
下書きではTeXが動くのにアップロードすると、ダメになってしまうのは、noteさんに『カイゼン』していただきたいです。
10分で重回帰分析を説明します
やったー、TeX表記できたー(追記:できてなかった)
$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \epsilon
$$
ちょっと、待ってー!
カンタンにするからー
$$
y = a + b_1 x_1 +b_2 x_2 + \cdots + b_p x_p
$$
これでどう?
ただの方程式じゃない?
ε(イプシロン)は誤差項(ごさこう)だから無視していいよ。
なにがしたいのか、相撲の強さを例にします
身長と体重が相撲の強さに関係してそうじゃない?
でもトーナメントとか総当たりにすると、統計処理がとてもやっかいになるから、相撲ロボット相手にスコアが出るとするよ。
クラスに30人の男の子がいまーす。
相撲ロボット相手に勝負するの。
結果が、y、被説明変数。因果関係の結果のほう。
身長と体重だけだから、
$$
y = a + b_1 x_1 +b_2 x_2
$$
こんなに短くなるよ。
aも無視していいの、定数だからいくつでも興味ないのよ。
興味があるのは、b1とb2、これらが説明変数です。因果関係の原因のほう、身長と体重。
大丈夫ですか、ここまで?
身長と体重、b1とb2、それが、y、相撲の強さに影響しているの。因果関係。
このb1とb2を係数って呼ぶのね。この数字が知りたいの。
相撲じゃなくて、例えばモーターの回転速度とかタイヤの劣化具合とか。
30人を縦に身長、横に体重、逆でもいいけれど、プロットしてみると、なんとなく直線が引けるのがイメージできますか?
背が高い人ほど体重も思い傾向がありますからね。
そこで、エイヤッて直線をグラフに引いちゃうんだけれど、その方法が最小二乗法。
ちょっと待ってー
またカンタンに説明するからー
本当はベクトルをつかってややこしい計算をするんだけれど、概念は小さい三角形をいーっぱい作るんです。
いっぱいていくつかっていうと、30こ。クラスの人数分。
$$
y = a + b_1 x_1 +b_2 x_2
$$
この式が30本あるのね。クラスの人数分。
グラフの点も30こあります。
その30この点から理想的な直線へイチバン小さな三角形を作っていくんです。最小「二乗」法なのは、直線から下になったらマイナスになって打ち消し合っちゃうでしょう?
だから二乗してから、三角形を小さくしていくのよ。
ちょっと説明不足かなー、点から真上と真横に線を出すんです。
そうするとどこかで、線にぶつかるでしょう?
そのときにすべての点は三角形を描けますでしょう?
そして線は直線。
そうやってぜんぶの三角形が理想的にイチバン小さくなったところの直線が、最初の重回帰分析の式になるんです。
ベクトルなんかイヤってかた、素晴らしい味方がいます。エクセルちゃん。
「LINEST関数」で検索してください。
グラフ付きのくわしい説明があるサイトが山ほどあります。
一度、30人のクラスを模擬的につくって、最小二乗法をやってみてください。もうそれで「重回帰分析」はマスターできます。
大学院の経済学、しかも金融工学やファイナンス系の院生がやることができちゃうんです。
なにか調べたいこと、自動車のスピードとなにかが関係しているかとか、疑問があったらデータを取って解析できちゃう。
それで興味が涌いたら、ベクトルの証明なんかにも手を出してみてはいかがでしょうか。
成田悠輔のどこがスゴイのか
上でさんざん「因果関係」というコトバを使いました。
それと似た、しかし間違えるとやっかいな概念に「相関関係」があります。
当然、身長と体重は相関関係がありそうですね。
この場合、むつかしいコトバで申し訳ないですが、「多重共線性」、マルチコリアニティー、和製略語でマルチコという現象が起こるのです。
これは「見かけ」の信頼度が上がってしまい、実際は身長と体重は相関関係が悪さをしていて「因果関係」は信頼できないという非常にやっかいなモンダイなのです。
そこで高度な統計的処理が必要になり、普通の学術誌の論文では3から4、多くても7から8の説明変数をつかっています。
ところが成田氏のコロナモデルの論文では二桁の説明変数がつかわれているのです。
yはコロナ患者の死亡者数でしょう、β のどこかに政府の助成金を入れているはずです。
政府の助成金がコロナ患者の救命の役に立たなかったというのが彼の論文の主旨のはずですから。
ところがβ におそらく住んでいる地域や人種などを入れ、おまけに「目の色」まで「コントロールしていた」と言っていました。
金融工学は数学とコンピュータサイエンスの知識が不可欠ですが、成田氏は「経済学者」と紹介されると、さりげなく「統計が専門で」とおっしゃることがありますね。
「タダのケーザイ学者じゃないです」とハッキリとはおっしゃらないですけれど。