山口県議会議員選挙のデータを分析してみた データアナリストへの道#21
デジテック for YAMAGUCHI 運営事務局 兼 Y-BASEスタッフのハラマルです。
今週末からGWの方も多いかと思います。コロナ禍の制限からも解放されつつあり、そろそろいろんなところに出掛けたいと思ってらっしゃる方も多いのではないでしょうか!?
私も、レノファ山口のアウェイ戦を観戦するために、山形まで行ってみたかったのですが、なぜか学校行事が…。GW中になぜ?
まぁ、連休の合間にもガッツリ仕事の予定があるので無理だったんですけれどね…。代わりに、応援に行かれる方の応援をしたいと思います。
今回もCanvaの「Text to Image」でタイトルイラストを作成しました。「日本人の高齢者と若者が投票所で投票している様子」というお題にしたところ、投票所で投票している様子は反映されていますが、キーワードに入れた「日本人」にだいぶ引っ張られていますね。いや、確かに日本人っぽいんですけど!余計なキーワードだったかな~(笑)
さて、今回は、先日実施された「山口県議会議員一般選挙」のデータ分析をしてみます。実は、昨年の7月末に、参議院議員選挙をデータ分析しています。今回とは選挙の種類が違いますね。
データの収集
まず、今回の選挙結果については、「山口県オープンデータカタログサイト」には掲載されていませんが、山口県選挙管理委員会事務局のサイトに公開されています。
データとしてExcelファイルが4つありますので、内容を見てみます。
まず、1つ目のファイル「当日有権者概数」はこちら。
2つ目のファイルが「確定投票状況」です。
B~D列に「当日有権者数」とありますが、これは先ほどの数値と一緒…ではないですね。1つ目のファイルと、若干数字が違うところがあるようです。よく見ると、時点が違うので、きっと、1日のうちに、当該市町への出入りがあったということなのでしょう。
このファイルで投票率を算定しているようです。
3つ目は「確定開票状況」です。候補者毎に、市町別の得票状況が分かるほか、無効投票数、無効投票率なんかも算定されています。
最後に「党派別得票数・得票率」です。
前回と同様、この取組で特定の候補者や政党について分析するつもりはありませんので、「確定投票状況」のデータと、「確定開票状況」のうち、総数のデータを使ってみたいと思います。
また、過去分のデータもありましたので、それも付け加えておきます。
途中からExcelじゃなくなったので、画面をコピペして文字の貼り付けで入力したり、画面を見ながら手打ちしたりしました。
今回、2023年、2019年、2015年の3回分の一般選挙と、3回分の補欠選挙をデータで揃えました。
分析してみた
それでは、まず最初に、参議選のときと同じように、投票率を市町別・男女別に見てみましょう。
並べてみると、参議選のときと同様、市町ごとに投票率の差はありますが、同じ市町内では、男女での投票率の差は少ないことが分かりました。
続いて、市町別の投票率を前回と比較をしてみると、
赤○が前回、水色○が今回です。美祢市のみが大きく伸びていることが分かりました。今回の選挙に対する、市民の関心の高さが窺えますね。
ちなみに、○がないのは、無投票で当選が決まった選挙区の市町になります。そうか、こういうのがあるからデータが不揃いになっているんですね。
ところで、久々に頑張って「ダンベルチャート」作りましたよ!こういうときに、自分が過去に作成したnoteが参考になります。
さて、問題はこれからですが、他にどんな気づきを得られるでしょうか。
例えば、こんなカンジで、市町ごとに過去の投票率を並べて、一般選挙と補欠選挙の色を変えてみましたが、全ての市町で投票率が下降傾向にあるわけでもなく、
じゃあ、年毎に分けてみましたが、全体として投票率が低下傾向にあるようだというくらいしか気づきが得られませんね。
見た目がキレイなグラフができたくらいでしょうか。
投票率と無効投票率の関係を見てみましたが、投票率が低いと無効投票率が高いという傾向が分かるものの、ん~、だから何なんだ。
Tableauのテクニックは使ってみたものの、これじゃあ、記事にできるような内容がなくて、ボツネタになってしまいそうです。最近、そういうのが多くて困ったなぁ。
分析の糸口
そうだ、何か糸口がないか、チャットGPT先生に聞いてみましょう!物知りなんで、何かヒントが出てくるかもしれません。
ハラマル)令和5年4月9日執行の山口県議会議員選挙の結果はこちらのURL(https://www.pref.yamaguchi.lg.jp/soshiki/176/203477.html)に掲載されています。この結果について、投票率及び無効投票率の傾向を分析して教えてください。
ハラマル)データの分析はできないということでしょうか?
ハラマル)「地域の特性」とは、具体的にどのような情報でしょうか。高齢者の割合などでしょうか。
ハラマル)「都市化率」というものを、具体的に数値で示しているような事例やサイトがありますか。例えば、山口県よりも東京都の方が都市化率が高いことは感覚的には分かりますが、同じ山口県の中での差異などを把握することは可能でしょうか。
ハラマル)そうなんですか、ありがとうございます。それを糸口にして分析してみますね。
なんと!ムッチャいろいろ教えてくれるじゃないですか。「都市化率」?そういう指標があるなら使ってみたい!
・・・が、何と!?先生が教えてくれた2つのサイトとも、存在しないじゃないですか!え、あんなに自信もって答えてくれたのに!?
ハラマル)教えてもらったサイトはリンク切れでアクセスできませんでした。都市化率のデータをダウンロードできるサイトはありますか。
くっ。そんなに素直に謝ってくるんかい!
分かった。そっちのサイトからダウンロードするよ。
・・・が、これも誤りでした(笑)
この後も先生とのやり取りは続きましたが、結論は、都市部という定義がないため、「都市化率」なる全国統一のデータはないということでした。
うん、分かっていたよ。誤りが含まれることがあるって。でも、自信満々な口調を信じっちゃったじゃないか。
注)サイトのURLは誤りだったので、回答内容の一部を加工しています。
さて、先生とのやり取りの中で、都市部だったらとか、高齢化率というアイデアが出てきたので、新しいデータを加えて分析してみることにしました。
新しいデータの追加
まず、高齢化とかをデータで把握できるものがないかと探してみると、毎年10月1日時点の市町別の人口(5歳階級ごと)がありました。
次に、都市化の度合いをデータで把握したいのですが、そんなに都合の良いデータが転がっているわけではないので、今回は、簡易的に、人口と面積の比率で算出してみたいと思います。「人口/面積」で、ある程度の人口密集具合が把握できるのではないかと。もちろん、同一市町内でも、人口密集地域とそうでない地域もあることは承知です。
さて、市町別の面積のデータはこちらにありました。
直近の令和5年と平成26年を見比べてみましたが、ほとんど数値に変更はなかったため、一律、令和5年の数値を使うことにします。
これらのデータをExcelにとりまとめて、Tableauに突っ込んだ後、先ほどのデータと関連性を紐づけておきます。
分析の再チャレンジ
それでは、試しに、簡易的に作成した「都市化率」がどんな風になっているのか確認してみましょう。
あら?下関市、山口市、岩国市、周南市辺りは、面積が広いことが影響しているのか、思ったよりも数値が低くなっているようですね。
面積が固定なので、人口減少に伴って、どの市町も低下傾向にあります。
う~ん、やっぱり、ちゃんとした「都市化率」のデータが欲しいですね。
次に、この都市化率と投票率をグラフに表したのがこちらになります。
「傾向線」を入れることで、なんとなく関係性が薄っすら見えるような、見えないような。
都市化率が高い(グラフでは右)ほど、投票率が低いと。
いや、これはちょっと無理あるか。許容範囲?
都市化率がもっと正確に算出できると、もっと分析できたかもしれませんが、この精度だとこれぐらいが限界でしょうか。
次に、5歳差年齢区分を使って、各市町における65歳以上人口の割合を算出し、その「高齢化率」を市町別投票率と同じグラフに落とし込んでみました。
そうすると、こちらの高齢化率は、さっきの都市化率よりも関連性が高いことが分かりました。高齢化率が高い方が投票率も高い傾向が見て取れます。
グラフの形を変えたものがこちら。
そして、この作業をやっている間に、もしかしたら、と気づいた要素があります。
定数に対して候補者の数で表した「激戦率」というものを算出したらどうでしょうか?
思い付いたは良いんですが、このデータの中に、定数も候補者数もありませんでした。仕方ないので、当時の報道などをネットで検索し、それぞれの選挙区での候補者数・定数を調べて、新たにデータに加えてみました。
きっと、激戦率が高い方が、関心が高まって投票率が上がっているんではないでしょうか?
うん、あんまり関係ないね。( `ー´)ノ
無投票の場合は選挙が行われないので、激戦率は1より大きく、最大で3(定数1人に対して候補者3人が立候補)となりました。
激戦率が高くなる(グラフの右)ほど投票率が高くなる、ということはないようです。
最後に、激戦率と無効投票率との関係を見てみたところ、無効投票率が高いのは、激戦率2.0以上の場合ということが分かりました。
定数1人に対して2人の候補者がいた場合、どちらにも投票しない白紙投票する人が多いということでしょうか?
また、補欠選挙(オレンジ色)については、無効投票率が高いという傾向もあるようですね。この辺り、投票者のメッセージが込められているのかもしれませんね。
まとめ
今回、特定の候補者や政党に言及するような分析はしなかったため、総論的なところにとどまってしまいましたが、興味のある方は、オープンになっているデータですので、ご自身でのデータ分析にチャレンジしてみてはどうでしょうか。
また、今回の取組の中で、選挙に関するデータなのに、当選者数・候補者数という基本的なデータがないことが分かりました。この辺りを補足して、使いやすいデータ形式で、「オープンデータカタログサイト」に掲載されるようになるといいですね。
それから、当然のことですが、無投票で決まった場合は、選挙が実施されていないので、データがありません。こうなると、分析も何もないですね…。
最後に、チャットGPT先生は、アイデアの壁打ち相手には良いかと思いますが、信用し過ぎないようにしましょう。