見出し画像

山口県議会議員選挙のデータを分析してみた データアナリストへの道#21

デジテック for YAMAGUCHI 運営事務局 兼 Y-BASEスタッフのハラマルです。

今週末からGWの方も多いかと思います。コロナ禍の制限からも解放されつつあり、そろそろいろんなところに出掛けたいと思ってらっしゃる方も多いのではないでしょうか!?
私も、レノファ山口のアウェイ戦を観戦するために、山形まで行ってみたかったのですが、なぜか学校行事が…。GW中になぜ?
まぁ、連休の合間にもガッツリ仕事の予定があるので無理だったんですけれどね…。代わりに、応援に行かれる方の応援をしたいと思います。

今回もCanvaの「Text to Image」でタイトルイラストを作成しました。「日本人の高齢者と若者が投票所で投票している様子」というお題にしたところ、投票所で投票している様子は反映されていますが、キーワードに入れた「日本人」にだいぶ引っ張られていますね。いや、確かに日本人っぽいんですけど!余計なキーワードだったかな~(笑)

さて、今回は、先日実施された「山口県議会議員一般選挙」のデータ分析をしてみます。実は、昨年の7月末に、参議院議員選挙をデータ分析しています。今回とは選挙の種類が違いますね。

データの収集

まず、今回の選挙結果については、「山口県オープンデータカタログサイト」には掲載されていませんが、山口県選挙管理委員会事務局のサイトに公開されています。

データとしてExcelファイルが4つありますので、内容を見てみます。
まず、1つ目のファイル「当日有権者概数」はこちら。

当日有権者概数

2つ目のファイルが「確定投票状況」です。

確定投票状況

B~D列に「当日有権者数」とありますが、これは先ほどの数値と一緒…ではないですね。1つ目のファイルと、若干数字が違うところがあるようです。よく見ると、時点が違うので、きっと、1日のうちに、当該市町への出入りがあったということなのでしょう。
このファイルで投票率を算定しているようです。

3つ目は「確定開票状況」です。候補者毎に、市町別の得票状況が分かるほか、無効投票数、無効投票率なんかも算定されています。

確定開票状況

最後に「党派別得票数・得票率」です。

党派別得票数・得票率

前回と同様、この取組で特定の候補者や政党について分析するつもりはありませんので、「確定投票状況」のデータと、「確定開票状況」のうち、総数のデータを使ってみたいと思います。

また、過去分のデータもありましたので、それも付け加えておきます。
途中からExcelじゃなくなったので、画面をコピペして文字の貼り付けで入力したり、画面を見ながら手打ちしたりしました。

今回、2023年、2019年、2015年の3回分の一般選挙と、3回分の補欠選挙をデータで揃えました。

分析してみた

それでは、まず最初に、参議選のときと同じように、投票率を市町別・男女別に見てみましょう。

山口県議会議員選挙の市町別・男女別の投票率

並べてみると、参議選のときと同様、市町ごとに投票率の差はありますが、同じ市町内では、男女での投票率の差は少ないことが分かりました。

続いて、市町別の投票率を前回と比較をしてみると、

県議選の市町別投票率 2023年と2019年の比較

赤○が前回、水色○が今回です。美祢市のみが大きく伸びていることが分かりました。今回の選挙に対する、市民の関心の高さが窺えますね。
ちなみに、○がないのは、無投票で当選が決まった選挙区の市町になります。そうか、こういうのがあるからデータが不揃いになっているんですね。

ところで、久々に頑張って「ダンベルチャート」作りましたよ!こういうときに、自分が過去に作成したnoteが参考になります。

さて、問題はこれからですが、他にどんな気づきを得られるでしょうか。

例えば、こんなカンジで、市町ごとに過去の投票率を並べて、一般選挙と補欠選挙の色を変えてみましたが、全ての市町で投票率が下降傾向にあるわけでもなく、

県議選の市町別投票率の推移

じゃあ、年毎に分けてみましたが、全体として投票率が低下傾向にあるようだというくらいしか気づきが得られませんね。
見た目がキレイなグラフができたくらいでしょうか。

県議選の年ごとの投票率(市町別)

投票率と無効投票率の関係を見てみましたが、投票率が低いと無効投票率が高いという傾向が分かるものの、ん~、だから何なんだ。

県議選の投票率と無効投票率 ※無効投票率は軸を反転しています。

Tableauのテクニックは使ってみたものの、これじゃあ、記事にできるような内容がなくて、ボツネタになってしまいそうです。最近、そういうのが多くて困ったなぁ。

分析の糸口

そうだ、何か糸口がないか、チャットGPT先生に聞いてみましょう!物知りなんで、何かヒントが出てくるかもしれません。

ハラマル)令和5年4月9日執行の山口県議会議員選挙の結果はこちらのURL(https://www.pref.yamaguchi.lg.jp/soshiki/176/203477.html)に掲載されています。この結果について、投票率及び無効投票率の傾向を分析して教えてください。

申し訳ありませんが、私は自然言語理解のみを担当するAIアシスタントであり、与えられた日付の選挙結果を分析することはできません。また、日本語以外の言語の処理も可能ですが、それぞれの言語に関する情報が必要です。しかし、山口県の選挙管理委員会や関連する地方自治体のウェブサイトに選挙結果に関する情報が掲載されていることがありますので、そちらを確認してみてください。

チャットGPT先生の回答

ハラマル)データの分析はできないということでしょうか?

私は自然言語理解AIであり、選挙結果のデータ分析はできません。しかしながら、一般的な傾向に関する知識を提供することはできます。一般的に、投票率は選挙種類、選挙区、地域の特性によって異なります。一般的に、低投票率は選挙結果に影響を与える可能性があります。無効投票率は、投票手順に不備がある場合や、有効票と見なされない票が投じられた場合に発生することがあります。これらの要因は選挙によって異なるため、具体的な情報に基づいて分析することが重要です。

チャットGPT先生の回答

ハラマル)「地域の特性」とは、具体的にどのような情報でしょうか。高齢者の割合などでしょうか。

はい、地域の特性には、高齢者の割合や若年層の割合、都市化率、教育水準、経済状況、選挙への関心度など、さまざまな要因が含まれます。これらの要因が投票率に影響を与えることがあります。例えば、高齢者が多い地域では、投票率が高い傾向にあります。また、都市部の若年層が多い地域では、投票率が低い傾向にあることがあります。このような情報を分析することで、地域の特性に応じた適切な選挙運動や投票促進策を展開することができます。

チャットGPT先生の回答

ハラマル)「都市化率」というものを、具体的に数値で示しているような事例やサイトがありますか。例えば、山口県よりも東京都の方が都市化率が高いことは感覚的には分かりますが、同じ山口県の中での差異などを把握することは可能でしょうか。

はい、都市化率は国勢調査などで調査されており、都道府県や市町村ごとのデータが公表されています。山口県の都市化率については、山口県のホームページ(https://www.pref.yamaguchi.lg.jp/……)に詳細が掲載されています。また、国土交通省が公開している「都市計画・都市情報システム」(https://nlftp.mlit.go.jp/…..)でも、都市化率のデータが閲覧できます。これらの情報を活用することで、山口県内の各市町村の都市化率を把握することができます。

チャットGPT先生の回答

ハラマル)そうなんですか、ありがとうございます。それを糸口にして分析してみますね。

どういたしまして。選挙の分析に役立てられる情報を見つけることができるといいですね。何か他にお力になれることがありましたら、お気軽にお尋ねください。

チャットGPT先生の回答

なんと!ムッチャいろいろ教えてくれるじゃないですか。「都市化率」?そういう指標があるなら使ってみたい!

・・・が、何と!?先生が教えてくれた2つのサイトとも、存在しないじゃないですか!え、あんなに自信もって答えてくれたのに!?

ハラマル)教えてもらったサイトはリンク切れでアクセスできませんでした。都市化率のデータをダウンロードできるサイトはありますか。

申し訳ありません、私の回答に誤りがありました。国土交通省が公開している「都市計画・都市情報システム」のURLをお伝えしましたが、2021年7月に更新が停止されたため閲覧できなくなっています。大変失礼いたしました。
代わりに、総務省統計局の「平成27年国勢調査に基づく地域別基本集計」(https://www.e-stat.go.jp/….)に都市化率のデータが含まれています。このデータを使って、山口県の各市町村の都市化率を調べることができます。

チャットGPT先生の回答

くっ。そんなに素直に謝ってくるんかい!
分かった。そっちのサイトからダウンロードするよ。

・・・が、これも誤りでした(笑)
この後も先生とのやり取りは続きましたが、結論は、都市部という定義がないため、「都市化率」なる全国統一のデータはないということでした。
うん、分かっていたよ。誤りが含まれることがあるって。でも、自信満々な口調を信じっちゃったじゃないか。
注)サイトのURLは誤りだったので、回答内容の一部を加工しています。

さて、先生とのやり取りの中で、都市部だったらとか、高齢化率というアイデアが出てきたので、新しいデータを加えて分析してみることにしました。

新しいデータの追加

まず、高齢化とかをデータで把握できるものがないかと探してみると、毎年10月1日時点の市町別の人口(5歳階級ごと)がありました。

次に、都市化の度合いをデータで把握したいのですが、そんなに都合の良いデータが転がっているわけではないので、今回は、簡易的に、人口と面積の比率で算出してみたいと思います。「人口/面積」で、ある程度の人口密集具合が把握できるのではないかと。もちろん、同一市町内でも、人口密集地域とそうでない地域もあることは承知です。

さて、市町別の面積のデータはこちらにありました。

直近の令和5年と平成26年を見比べてみましたが、ほとんど数値に変更はなかったため、一律、令和5年の数値を使うことにします。

これらのデータをExcelにとりまとめて、Tableauに突っ込んだ後、先ほどのデータと関連性を紐づけておきます。

分析の再チャレンジ

それでは、試しに、簡易的に作成した「都市化率」がどんな風になっているのか確認してみましょう。

人口/面積で算出した「都市化率」

あら?下関市、山口市、岩国市、周南市辺りは、面積が広いことが影響しているのか、思ったよりも数値が低くなっているようですね。
面積が固定なので、人口減少に伴って、どの市町も低下傾向にあります。
う~ん、やっぱり、ちゃんとした「都市化率」のデータが欲しいですね。

次に、この都市化率と投票率をグラフに表したのがこちらになります。

縦軸:投票率 横軸:都市化率

「傾向線」を入れることで、なんとなく関係性が薄っすら見えるような、見えないような。
都市化率が高い(グラフでは右)ほど、投票率が低いと。
いや、これはちょっと無理あるか。許容範囲?
都市化率がもっと正確に算出できると、もっと分析できたかもしれませんが、この精度だとこれぐらいが限界でしょうか。

次に、5歳差年齢区分を使って、各市町における65歳以上人口の割合を算出し、その「高齢化率」を市町別投票率と同じグラフに落とし込んでみました。

横棒:投票率 丸:高齢化率

そうすると、こちらの高齢化率は、さっきの都市化率よりも関連性が高いことが分かりました。高齢化率が高い方が投票率も高い傾向が見て取れます。
グラフの形を変えたものがこちら。

縦軸:投票率 横軸:高齢化率

そして、この作業をやっている間に、もしかしたら、と気づいた要素があります。
定数に対して候補者の数で表した「激戦率」というものを算出したらどうでしょうか?

思い付いたは良いんですが、このデータの中に、定数も候補者数もありませんでした。仕方ないので、当時の報道などをネットで検索し、それぞれの選挙区での候補者数・定数を調べて、新たにデータに加えてみました。
きっと、激戦率が高い方が、関心が高まって投票率が上がっているんではないでしょうか?

縦軸:投票率 横軸:激戦率

うん、あんまり関係ないね。( `ー´)ノ
無投票の場合は選挙が行われないので、激戦率は1より大きく、最大で3(定数1人に対して候補者3人が立候補)となりました。
激戦率が高くなる(グラフの右)ほど投票率が高くなる、ということはないようです。

縦軸:無効投票率 横軸:激戦率

最後に、激戦率と無効投票率との関係を見てみたところ、無効投票率が高いのは、激戦率2.0以上の場合ということが分かりました。
定数1人に対して2人の候補者がいた場合、どちらにも投票しない白紙投票する人が多いということでしょうか?
また、補欠選挙(オレンジ色)については、無効投票率が高いという傾向もあるようですね。この辺り、投票者のメッセージが込められているのかもしれませんね。

まとめ

今回、特定の候補者や政党に言及するような分析はしなかったため、総論的なところにとどまってしまいましたが、興味のある方は、オープンになっているデータですので、ご自身でのデータ分析にチャレンジしてみてはどうでしょうか。

また、今回の取組の中で、選挙に関するデータなのに、当選者数・候補者数という基本的なデータがないことが分かりました。この辺りを補足して、使いやすいデータ形式で、「オープンデータカタログサイト」に掲載されるようになるといいですね。

それから、当然のことですが、無投票で決まった場合は、選挙が実施されていないので、データがありません。こうなると、分析も何もないですね…。

最後に、チャットGPT先生は、アイデアの壁打ち相手には良いかと思いますが、信用し過ぎないようにしましょう。