住宅侵入盗が〇〇県で急増!? データアナリストへの道#6
デジテック for YAMAGUCHI 運営事務局 兼 Y-BASEスタッフのハラマルです。
↑ 突然始まりましたが、実はこれ、AIが自動生成した架空のニュースです。今話題の「イライザペンシル」に「山口県」「データ分析」「侵入盗」というキーワードを入れてAI執筆してもらったものなんです。すごく流れる日本語を作りますよね!感動です。架空のニュースですよ!
さて、今回は、「犯罪統計」を扱ってデータの可視化・分析スキルを学んでいこうと思います。別に犯罪に興味があるわけではありませんが、データがたくさん公表されているのと、身近な話題?として選んでいます。
元データ
犯罪発生件数
「e-Stat」でヒットしました。警察庁のサイトに誘導され、平成14年からのデータがダウンロードできるようになっています。
お~、かなりのデータありますね。早速令和3年度のデータを見てみます。
え?これって。。。確かに、データではありますが、B列「都道府県」を見てみると、北海道は地域名が入っており、東京都は空欄、その他は都府県名が入っています。地域名と都道府県名が入り乱れていますね。途中には地域別の小計もあり、これがちょっとじゃまですね。
それに、下にスクロールしていくと、
別のデータが格納されています。行名・列名も違っていますね。つまり、全然別形式のデータが、同じシートにペタッと貼り付けられているようです。
例えば、「重要犯罪総数」の表があって、その下に、その内訳として「殺人」の表があったりするようです。
う~んと、刑法犯総数を分析してみましょうか。
その内訳は、第1表を見てみると「凶悪犯」「粗暴犯」「窃盗犯」「知能犯」「風俗犯」「その他」となっているようですが、第2表以降を見てみると、都道府県別のデータがあるのは「窃盗犯」と「重要犯罪・重要窃盗犯」という項目になっています。
「窃盗犯」は分かりますが、「重要犯罪・重要窃盗犯」?これはどういう区分?刑法犯総数とどういう関係にあるのでしょうか?足しても総数に返らないみたいなので、全然違う考え方の区分なんでしょうか。
これ、どうやって整理したらいいんでしょうか?「e-Stat」にデータがあるからといって、形式が整理されているわけではないんですね~。
これは、整理するのにかなり労力がかかりそうな予感がします。どのように整理すべきか、一旦、落ち着いて考えましょう。
と言って、現実世界では約2週間が経ってしまいました(笑)。
全体を分析するのにいいアイデアが思いつかなかったので、とにかく、何かに絞って作成してみましょう。
いろいろデータがあるのですが、とりあえず「侵入盗(住宅対象)」にしてみます。おそらく、いわゆる家に入る泥棒のことだと思います。重要犯罪は数が少ないので、少しの発生で統計に大きな影響が出てしまいますが、こちらは一定の数があるようなので、全体の傾向が分かるような気がします。
まず、令和3年度の表の中から、該当部分をコピーし、新しいExcelファイルに貼り付けることにします。
この1つの表に2年分の数値が入っていますので、今度はその2年前ということで、令和元年度のデータをダウンロードし、該当部分をコピーします。
と思ったら、データ整理の仕方が違うじゃないですか?今度は、表がシートごとに分かれていますね。見た目も違ったので一瞬驚きましたが、同じ表のようですね。ただし、セル結合しているし、どうもデータが入っている行列数がさっきとは違うようです。思った以上に手強いですね。
表の全体をコピーして、先ほどのExcelファイルの別シートに貼り付けます。
これで4年分のデータが揃いました。
もう一つ、平成29年分も同じように作業して、6年分のデータを、とりあえず確保しました。
次に、データの持ち方を考えてみます。これまでの経験で、データを横方向に持つのは失敗だというのは身に染みて分かったので、縦方向に持てるように、こんなカンジかな?と箱を作ってみました。
「認知or検挙」という列には、認知件数か検挙件数かの区分を入れようと思います。
人口データ
それと、毎度お馴染みですが、都道府県比較する際は、人口比で見たほうがいいのかな、ということで、各年の10月1日人口を「e-Stat」から入手します。
あとは、先ほど作成したExcel入力表に、各年の認知件数・検挙件数を、間違えないように入れてきます。6年分×認知・検挙の別×47都道府県ということで、564個のデータができました。
都道府県の並び順が、犯罪統計と人口とで違っていたので、間違って紐づけないように注意が必要でした。
住宅戸数
それから、作業としては前後しますが、後ほど、分析作業をしている段階で、「あれ、住宅を対象とした犯罪を比較する際に、用いるべきなのは人口比?もしかしたら、一人暮らしが多い都道府県と、そうでないところでは差があるのでは?」と思うようになり、住宅戸数データも入手しました。
これもe-Statから探しましたが、「住宅・土地統計調査」という調査で、どうやら5年に一度の調査のようです。直近値が2018年でした。
分析してみた
まずマッピング
さて、データを整理して、まず取り組むのは、定番のマッピングからです!
各年の数値を人口千人あたりで除したデータを作成し、フィルターで「認知件数」だけにし、地図に落としました。6年分のデータがあるので、右上のスライサーで年を簡単に選べるようにしてみました。
図は2016年のキャプチャーですが、最も色が濃いのは茨城県で、その数値は1.424となっています。人口千人あたりで1.4件の侵入盗が発生(認知)されています。
次は、フィルターを「認知件数」から「検挙件数」に変更してみます。すると、こうなりました。
上も2016年ですが、茨城県が最も多い(0.7029)のは同じですが、福岡県とほぼ同じ値(0.6975)になっています。
推移表
マッピングで気づいたのは、当然、発生件数が少ないと検挙も少ないでしょうから、発生件数と検挙件数をセットで見たほうが分かりやすいかな?ということで、次は、都道府県ごとの推移表を作ってみました。
それがこちらです!結構上手に作れました!
都道府県にすると数が多すぎて、山口県がどこなのかさっぱりわからなかったので、山口県だけ着色をしてみると、全体の中の位置もよく分かりますね。
認知件数を見てみると、2016年に飛びぬけて多かった茨城県も大幅に減少し、他県と同程度までになっているのが分かります。
検挙件数も、認知件数が減るのに合わせて減っているようです。
あれ?なんか2021年にやたらと右肩上がりの県がありませんか?灰色なのでよく分かりませんが、認知件数も検挙件数も、人口千人当たりの件数のトップの都道府県が入れ替わっていますね。
カーソルを合わせてみると、なんと、両方とも福井県ということが分かりました!
え?本当に?そんな異常値みたいな状態が発生しているの?と、私も自分のTableau分析に自信がないため、念のため、元データを見てみると、確かに急増していますね。
対前年の増減率が、認知件数で156.5%、検挙件数が319.7%になっています。
これは何か要因があるのでしょうか?
ちょっとネットで調べてみましたが、理由が分かるようなものは見つかりませんでした。ということは、あまり話題になっていないのかもしれません。
よく見てみると、検挙人員は大きく変わっていません。
こうした状況から推測すると、もしかしたら、多く犯罪を重ねた人が検挙されたということなんでしょうか?認知件数よりも検挙件数の伸びが大きいということから、前年に増えていた犯罪分も一挙に検挙に至ったということなんでしょうか?・・・ということであれば、次の2022年は元の値(順位)に戻るのかもしれませんね。
答えを知っている方がいらっしゃったら教えてください!
個別にフォーカスするのではなく、全体の傾向をもうちょっと分析してみたいと思います。
次は、Tableauに備わっている「アナリティクス」という機能を使ってみます。初めて使うので緊張します!先ほどの推移表に「箱ヒゲ図」を追加してみます!
「箱ヒゲ図」というのには馴染みがないですね。私も初めて見ました。あまりにも気になったのでやってみたのですが、こんなグラフになりました。
調べてみると、この「箱」と呼ばれる青い四角には、全体の50%が含まれています。また、箱の中の色が途中で変わっていますが、ここが中央値になります。また、箱から上下にのびている「ヒゲ」は、箱の両端から、箱の長さ×1.5の範囲にある最も外側のデータまでが含まれます。
ということで、どれだけデータがばらついているのか、また、その中央値や中央に近い範囲はどこかといったことが一目瞭然ということです!
ちょいと難しいですね。左側のグラフで見てみましょうか。
2016、2017年は箱が縦長なので全国でばらつきがあることが分かります。山口県(赤線)は箱の外(下側)にあるので、全国的にもかなり少ない値(住宅侵入盗の認知件数が少ない)ことが分かります。また、一番トップの茨城県は、ヒゲよりもさらに上にあるので、かなりとびぬけていることが分かります。
2018年以降は、箱が小さくなってきているので全国的なばらつきが減ってきているということですね。山口県は箱の中に入ったので、全国の50%の範囲内になっていますが、それでも中央値よりは下ということで、全国的に少ない状況であることが分かります。
急激に伸びた福井県は、箱の中からヒゲの外にまで飛び出していますね。それだけに、全国的に見ても珍しい現象だということが分かります。
散布図
同じようなことを散布図でもやってみます。
検挙件数と認知件数の二つを軸にして、都道府県ごとの値を年で並べてみます。
それから、今度は「アナリティクス」機能の「クラスター」も使ってみます。
「クラスター」は、Tableauがデータを自動的にグルーピングしてくれる機能のようです。
どういう計算でグルーピングしているのかな?と調べてみましたが、さっぱり分かりませんでした。統計についてもっと学ばないと難しそうです。
が、そんな知識がなくても勝手にやってくれる、というのは非常にありがたい機能ですね。(ただ、ちゃんと理解していないと、きちんと分析できませんね)。
これを見てもわかるとおり、認知件数・検挙件数とも、ばらつきがあったものが、だんだん、いずれも小さい値の方に収束していっている傾向にありますね。
ちなみに、これが2016年と2021年を同じグラフ上に表したものです。さっきのとは、ビジュアルの違いに過ぎませんが、6年間の差がよく分かりますね。
このあたりが可視化の力ですね。見た目でパッと理解できるグラフを作ることができるかどうか、が重要です。先ほどのグラフは推移が、こちらは6年間の差が分かります。
参考までに山口県の位置を示したものはこちらです。
この散布図でダンベルチャートが作れたらいいなぁと試行錯誤してみましたが、できるのかどうかさえも分からずでした。無念。
住宅戸数との比較
さて、今度は、住宅戸数との関係をみてみたいと思います。
住宅戸数のデータがあった2018年だけになりますが、横軸に住宅戸数、縦軸に認知件数を設定してみます。
真ん中の斜めの線は、これまたTableauの機能の「分析」の「傾向線」というのを入れてみました。いや、これがないと、何のことか分かりませんでした、というのが実態ですが。
単純に考えて、住宅数が多い方が、住宅を対象とした侵入盗の認知件数が多い傾向にあると思いますので、右肩上がりの散布図になると思います。その目安が傾向線です。(だと思います。)
例えば、一番右上の東京都は、傾向線よりかなり下に位置しています。ということは、住宅戸数が多い割に認知件数が少ないということが言えます。
逆に、この線を上回っている愛知県・千葉県・埼玉県・茨城県などは、住宅戸数の割合に比べて認知件数が多いと言えます。
ん~、よくわかりませんかね。ちょとグラフを作り変えてみます。
これでどうでしょうか?住宅戸数が縦棒で、認知件数が青丸です。
縦棒の中に、またはそのすぐ上に青丸がある都道府県が多い中、先ほど挙げた県は、棒のはるか上に青丸があることが分かりますね。
こちらは、それぞれの最大値をベースに表ができていますので、さっきの傾向線と違って、福岡県も住宅戸数の割に認知件数が多い印象になりますね。
最後に、住宅戸数のデータが2018年だけなので正確ではありませんが、同じ戸数だと仮定して、住宅戸数に対する認知件数の増減を見てみます。2018年を青、2021年をオレンジで表しました。
こうやってみると、先ほどの人口比と同じように、茨城県が減って福井県が増えているのが一目瞭然です。平均も入れてみましたが、減少していますね。人口比と住宅戸数比とでは、同じような傾向がみられることが分かりました!
まとめ
今回、犯罪件数でいろいろ可視化してみましたが、やっている途中に、人口比ではなくて住宅戸数比で見たほうがいいのかな?と考えました。
また、この戸数でも、例えば、住居専門だけでみるのか、店舗も含めるのか、といったデータ選びで悩みました。
当然、違うデータを使えば、違う分析結果になる可能性もあるわけで、分析の仕方には何通りあるのか、あり得るのか、その中から最も適した解を選ぶにはどうしたらいいのか?非常に難しいことが分かりました。
今回の分析で見えた傾向についても、他のデータを使うことで、全然違う分析結果になったり、違う側面が見えてくる可能性もあります。
決して、特定の県の防犯事情について言及したかったわけではありませんので、ご了承ください。
人口比でも住宅戸数比でも、全国的に認知件数が減少傾向であることには安心しましたね。