投票した後、何か忘れていませんか?データ分析ですよね? データアナリストへの道#12
デジテック for YAMAGUCHI 運営事務局 兼 Y-BASEスタッフのハラマルです。
我らがレノファ山口が3連敗してしまい、ちょっと意気消沈してしまっているところに、なんと、小山社長のデータ分析から、「夏場に弱い」ことが発覚してしまいました(笑)
しかし、これは過去のデータ。今年はきっと違います!今週末からのホーム戦3試合は、「夏の維新劇場」と名付けられイベントも盛りだくさん、お得なチケットもあります。土曜日ナイターということもあり、ご家族で、夏祭りに行くつもりで遊びに行くにはちょうどいいと思います!過去のデータをひっくり返すような試合展開に期待しましょう!
今回は、先日行われた参議院議員選挙の結果を可視化してみたいと思います。
私もそうですが、通常は、投票したら、後は、結果の発表や報道を待つだけ、ではないでしょうか?
実は、選挙の結果が公式HPで公表されているのをご存知でしたでしょうか?
先般の参議院議員選挙の、山口県内分は「山口県選挙管理委員会事務局」のHPに公表されています。
今回は、こちらのデータを使ってみます。これも、立派な「オープンデータ」ですね。
どんなデータあるかというと、結構ファイルがたくさんありますね。
まず、「当日有権者概数」というデータがあります。その名の通りのデータと思われますが、後で分かりましたが、他の帳票にも同じと思われるデータが格納されていましたので、今回は置いておきます。
次に、「確定投票結果」とあり、選挙区と比例代表があります。
ちらっとファイルを開いてみると、先ほどの当日有権者数のうち、投票を行った人数と、行かなかった(棄権した)人数が市町別に整理されています。
なるほど、いわゆる投票率を算出するデータとなっているわけですね。
最後に、「確定開票結果」という名前で、選挙区2ファイル、比例代表が5ファイルあります。
こちらもちらっとファイルを開いてみましたが、データ形式も違うし、統合(データ整理)に時間がかかりそうな予感です。
ここでも「オープンデータ」の根強い問題が発生していますね。実際に自分でデータを触ってみようとして気づくようになったことですが、いろんな帳票がある場合に、それぞれがどのような関係にあるのか、もしくはないのか、ということの説明がありません。また、専門的な言葉を使われていることが多いので、自分で調べてみないといけないという手間が発生してしまいます。
今回も、「投票結果」と「開票結果」とか、別に分けなくても、同じ表にしてくれればいーじゃんっと思うのは私だけでしょうか?
気を取り直して、作業に入りますが、まずは、ファイル数が少ない「選挙区」の方を見てみます。投票結果が1ファイル、開票結果が2ファイルの合計3ファイルありました。
まず最初のデータは投票結果です。おや、男女別の数字があるのですね。これも分析に使えるでしょうか?
次に開票結果です。1つ目のファイルには、候補者ごとに、市町別の得票数が整理されています。
こちらには男女別のデータがありませんね。投票する際に、そういう情報を記載していないので当然のことではあります。
開票結果の2つ目のファイルには、投票総数のデータがありました。
投票結果とよく似ていますが、よく見ると、投票された数のうち、無効だったものを除いた有効投票数の総計519,535票が、先ほどの候補者別得票数の総計と一致しています。ここでようやく票間の関係性が確認できました。
あとは、ここで見るのは無効投票率くらいでしょうか?
さて、ここから3つのファイルの統合です。
いずれも市町別になっているので、とりあえず市町ごとに並べていって、あとは小計(郡計、政令市計、町村計、県計)を除いたり、タイトル行が複数行になっている項目は1行にしていくなど、いつものお決まり作業をしていきます。
もう毎回のことになってきましたので(笑)、省略!もし、この辺りのデータ整理作業に興味がある方は、以前の「データアナリストへの道」をご覧ください。
準備が整ったら、Tableauにデータ接続して可視化開始です。
まずは投票率をみてみましょうか。皆さん、ご自分がお住いの市町の投票率は既にご存知?かと思いますので、単に並べるだけでなく、せっかくなので男女別で見てみます。
市町別で見ると、男女計(緑色)の最も投票率が高かったのは阿武町で、低かったのは防府市です。高い順に並べています。
せっかく男女別に分けてみましたが、こうやって見てみると、男性・女性とも、男女計の傾向と大きな違いはなさそうですね。投票率が高い市町では、男性・女性とも投票率が高く、逆に、低い市町では、男女とも低いです。
つまり、投票率は、性別による差は少なく、居住地の地域的な要因に大きな影響を受けていそうです。
ここでちょっとグラフを変えてみます。市町別に、男性と女性と、どちらの方が投票率が高いかを見てみます。
投票率の男女差(男性-女性)という計算フィールドを作成してみたのがこちら!
男女差を左のグラフで表しました。右の緑色は先ほどと同じ男女計です。
男性の方が投票率が高い青色(正の数値で表示)は、周防大島町や柳井市・光市と、県南東部に多いようですね。
一方、女性の方が投票率が高いオレンジ(負の数値で表示)は、長門市・萩市・阿武町など山陰方面に多いようです。
せっかく見つけた男女別数値で、なんか無理やり傾向を見つけようとしてみましたが(笑)、どうでしょうか?
ここでも、この男女差があるなしは、右(緑色)の男女計の投票率とはあまり関係がないようですね。
次に、市町別に、候補者ごとの得票率を整理してみました。
候補者ごとに、どの市町で得票が多かったかが分かる表にしてしまうことも簡単です。
個別のコメントをするつもりはないので、この辺にしておきますが、データをオープンにしておいていただくと、こうして自分で加工して分析できるようになります。やはりデータのオープン化はどんどん進めてもらいたいですね。
続いて、投票率と、無効投票率の関係を見てみます。無効投票とは、投票されたもののうち、立候補していない者の名前を書いたり、2名の名前を書いたり、他のことを書いたりで、無効とされたものとされています。実態がよく分からないのですが、その多くは白紙票ということなんでしょうか?
私の予想に反し、こちらもあまり関係がなさそうなことが分かりました。
投票率が高い市町においても、無効投票(白紙投票?)が多いところもありますし、投票率が低く、無効投票(白紙投票?)は多い、という市町もあったり、いろんなパターンがありそうです。
そうか、投票所まで行った結果の無効投票(白紙投票?)なので、投票率ではなく、候補者への投票と同じ並びで表にしてみたら良かったかもしれませんね。
続いて、「比例代表」ですが、こちらは、制度自体が複雑なので、何をどのように分析したらいいのか、ちょっと分かりませんが、とりあえず、選挙区と同様に、市町別の得票率割合を視覚化してみました。
また、比例代表の方は、政党等か名簿登載者か、どちらかに投票できましたのでそのどちらに投票したかという割合を視覚化してみます。
全体的には政党等に投票した人の方が多いですが、萩市・阿武町では、名簿登載者に投票した人の割合が比較的に多くなっていますね。萩市では名簿登載者への投票の方が多かったようです。
長門市もこの率が高いようです。山陰側にそういった特徴があるんでしょうか?
特定の候補者や政党に絞って分析すると、もっと違うことが分かりそうですね。
さて、ここまで分析してくると、開票結果の方に属性データ(男性・女性、年代など)が欲しいなぁと思ってきますね。
無記名投票のため、それはできないのですが、しかし、デジタル技術を使えば簡単なのではないでしょうか?マイナンバーカードを使って投票して、匿名加工してデータ収集すれば…というのはどうでしょうか?
すぐには実現しないかもしれませんが、きっとそうしたデータ分析が進むことで、自分と同世代の人がどんな問題意識を持っているのか?といったことも分かり、投票を自分事に捉える人も多くなるのでは?と思いました。
「投票」という多く(?)の国民が参加する活動、単に得票数が〇票という結果だけでなく、皆さんの行動を詳しくデータ化・可視化することで、もっといろんなことが分かるようになるという「国民の資産化」が進むといいですね。