【特別企画】2020年アメリカ大統領選を予測してみる(第2回)
前回のnoteでは、「次の選挙では、どの候補が勝利すると思いますか?」という回答者に勝利を予想してもらう世論調査の質問を用いて、選挙結果の予測モデルを作成しました。
こうした予測モデルは、一見シンプルなのですが、実はかなり精度がいいことも示した上で、自分でデータを収集して、予測モデルをアレンジしてみました。
しかし、やっている内に、さらに自分でアレンジしてみたくなったので、2016年の大統領選挙に関して、よく言われる世論調査の失敗の原因にも対処した上で、さらに予測モデルを作成しようと思います。
2016年大統領選挙での世論調査の失敗?
2016年の大統領選挙の際の世論調査を用いた予測の多くが、トランプ大統領の誕生を予測できなかったとされています。
なぜこのような予測の失敗が生じてしまったのか、そしてこの失敗を繰り返さないように、アメリカ世論調査協会で検証が行われ、この失敗の原因が明らかになっています。
それは、日本で多くのメディアが報じていたような、いわゆる「隠れトランプ支持」が多かったことではありません。
では何が原因であったかというと、
(1)州ごとに選挙人を決めるという特徴的な大統領選挙の仕組みがあるにも関わらず、多くの予測がアメリカ全国規模で行われ、州ごとの傾向を予測することができなかった
(2)主に貧困層や低学歴層などの調査でカバーしきれなかった層がいた
(3)選挙直前になっても投票に行くかどうか・誰に投票するかを決めかねた層が多かった
上の3点の影響が大きかったと検証がなされています。
しかしながら日本では、いまだに世論調査の結果を元にした予測をしても、「隠れトランプ支持者」がアメリカ社会に多くいるので、あてにならない。「隠れトランプ支持」の影響力は大きいんだ!という主張されることがあります。
ですが、この主張の中心となる「隠れトランプ支持者」の選挙結果を変えてしまうような影響力というのは、2016年の失敗を検証した多くの研究や分析において、否定されています。(例えば、この記事やNHKの記事など)
こうした世論調査において、本心を隠して、自分の考え通りに回答しないことを「社会的望ましさバイアス(Social Desirability Bias)」と呼ばれて、世論調査を扱う社会科学では、それ自体が研究対象となっています。
大まかに説明すると、社会において自分の見え方というのは重要であるため、できる限り、本心ではなく、社会的に望ましい回答・振る舞いをするというものです(近年の言葉でいうとポリコレ的な回答ということでしょうか)。
このバイアスを回避するためには、データ上の匿名化だけでなく、調査時にも匿名化できる形、つまり誰も見ていないところで、自分とわからないように回答してもらうことが一般的なやり方です。
(例えば、調査実施者がPCを回答者に渡し、画面や手元が見えないように回答してもらうというものがあります)
ですが、あくまでもこうした傾向は、人目を気にして、社会的に望ましい回答をするということです。2020年の選挙は、2016年と状況が全く異なります。トランプ氏は4年間大統領を務め、共和党を率いて、多くの共和党議員がトランプ大統領に意向に沿って行動しました。また社会でも、分断という言葉に象徴されるように、2016年以前まで燻っていた社会的な亀裂が顕在化し、トランプ大統領の政策的な立場はメインストリームの舞台に上ったように思えます。そのような中で、トランプ支持が社会的に望ましい回答ではないとするのはおかしい現象だと思われます。
話を戻すと、2016年の世論調査の失敗を踏まえるには、いくつかの原因を取り除く必要があります。今回はその中でも、州ごと傾向を踏まえた予測モデルを作成してみようと思います。
州ごとに予測モデルを推定する
前回までの予測モデルは、アメリカ全土の結果を予測するもので、州ごとの傾向を含めていなかったため、2016年のように、現実の結果と乖離してしまう可能性があります。そこで、アメリカ全土単位の予測ではなく、州ごとの単位で予測モデルを作ります。
まずGraefe(2014)の予測モデルでは、現職大統領の所属政党の得票率を推定する形になっていましたが、
それを「民主党候補の得票率」を「民主党候補への勝利予想の割合」で予測するモデルに変更しました。
アメリカの大統領選挙では、ほぼ民主党が勝利する「Blue States(青い州)」と、ほぼ共和党が勝利する「Red States(赤い州)」があるため、そもそも、どちらかの政党が勝つための州ごとの基礎点が異なります。
そこで、民主党候補に注目することで、州ごとの民主党の基礎点を推定します。
実は、このやり方も、Murr and Lewis-Beck(2020)と同様のやり方に、基づいています。
そこで、彼らが用いた、American National Election Studiesの1948年から2016年までの各州の世論調査データを利用し、まずはアメリカ全国規模の予測モデルを立てました。
V(民主党候補の得票率) = 39.3 + 20.1 * E(民主党候補への勝利予想の割合)
図:モデルから推定された予測プロット
(縦軸:民主党候補の得票率、横軸:民主党候補への勝利予測の割合、青い影は95%信頼区間)
上記のような予測モデルになっており、前回と同様に、FiveThirtyEightの10月23日の各候補の勝利予想データを用いると、人々の民主党のバイデン候補の勝利予想は、約53%(E=0.534)のため、バイデン候補の得票率は、「約50%」となり、この予測モデルでは、メディアで報じられているバイデン候補有利というものではなく、予断を許さない接戦という結果となっています。
では、次に、州ごとに予測モデルを作成し、選挙結果を予測してみます。
図:各州の予測プロット
(縦軸:民主党候補の得票率、横軸:民主党候補への勝利予測の割合)
各州の予測モデルは、図に示したように、各州で市民の50〜70%程度がバイデン候補の勝利を予想してないと、バイデン候補の得票率が勝利ラインである過半数を超えない形になっています。
では、この予測モデルを元に、各州の勝利予想の数値を当てはめると、どのようになるかをアメリカの地図に図式化してみました。
図:各州の得票率の予測
(各州の記載されている数字は選挙人の数。また色が青い州ほど、民主党候補の得票率が高い。逆に赤に近いほど、得票率が低い。)
見た目上はあまり青い州(バイデン候補の得票が50%以上)がありませんが、アメリカ大統領選挙は、州ごとに大統領選挙で投票することのできる選挙人の数が割り当てられているため、そこまでの差ではありません。
むしろ、今回の州ごとの予測モデルだと、トランプ大統領とバイデン候補の差はそれほど大きなものではなく、どちらの陣営も気を引き締めないと一瞬で結果が変わってしまいそうな結果です。
あくまでも、今回の結果は、一つの選挙の予測ですので、当たるか当たらないかは蓋を開けてみないと分かりません。ですが、2016年の世論調査の失敗のように、メディアで盛んに勝利が予測されていても、何が起きるか分からないのが選挙です。
一方で、この度の選挙は、これまでの選挙とは異なり、多くの有権者が現時点で、投票先を決めており、過去の選挙結果から予測モデルを推定するというのが適していない可能性もあります。実際に、大手の調査会社YouGovの調査でも、投票先を迷っている回答が少なくなっています。
今回は、多くのメディアが行っている選挙予測を、自分の手でやってみるという試みでしたが、何気なく、メディアやニュースで報じているものを自分でもやってみるということから、見えてくるものもあるのかなと感じています。あくまでも、一つの頭の体操として、皆さんの興味関心につながれば幸いです。
この予測モデルが、どのぐらい当たったかは、また11月3日の大統領選挙の後に、ご報告できればと思います。
参考までに、1992年以降、民主党が勝利し続けているBlue Statesと、共和党が勝利し続けているRed States、さらに、選挙ごとにどちらが勝利するかわからないSwing Statesの予測モデルのプロットを示しておきます。
図:Blue Statesの予測プロット
(縦軸:民主党候補の得票率、横軸:民主党候補への勝利予測の割合、青い影は95%信頼区間)
図:Red Statesの予測プロット
(縦軸:民主党候補の得票率、横軸:民主党候補への勝利予測の割合、青い影は95%信頼区間)
図:Swing Statesの予測プロット
(縦軸:民主党候補の得票率、横軸:民主党候補への勝利予測の割合、青い影は95%信頼区間)
参考文献
Graefe, A. (2014). Accuracy of vote expectation surveys in forecasting elections. Public Opinion Quarterly, 78(S1), 204-232. https://doi.org/10.1093/poq/nfu008
Murr, A. E., & Lewis-Beck, M. S. (2020). Citizen Forecasting 2020: A State-by-State Experiment. PS: Political Science & Politics, 1-5. https://doi.org/10.1017/S1049096520001456
Murr, A. E., & Lewis-Beck, M. S. (2020). Replication Data for: Citizen Forecasting 2020: A State-by-State Experiment, Harvard Dataverse, V2. https://doi.org/10.7910/DVN/S1594S