見出し画像

データ分析は簡単なところから徐々に始めた方がいいのかも

こんにちは。とくひさです。

先日ハラマルさんが、山口県のオープンデータカタログサイトにある「文化財一覧」のデータを、Tableauを使って分析されていましたね。

こうした位置情報を持つデータを見ていると、”自分が住んでいる地域の近くにはどのくらいの文化財があるんだろう”とか、”特にたくさん集まっているのは県内でもどの辺りなんだろう”とか、色々と疑問に感じることってありますよね。

ただ、一方でいちいちデータをダウンロードして、PCでツールを立ち上げて分析して、、、、というのは、ちょっとばかし面倒に感じたりして、ついそのままにしてしまうこと、私も正直よくあります。

そこで、本日は山口県のオープンデータカタログサイトで、データをダウンロードしたりしなくても、ざっくりと地図プロットしたり、データを抽出してどんなデータがどのくらいあるか確認したりすることができる、お手軽機能をご紹介したいなと思います。

1.見たいデータを探す

まずは山口県オープンデータカタログサイトを開きます。

データセット検索欄が表示されているので、”データ名”をキーワードとして入力することで、目的のデータを絞り込んで表示することができます。

で、目的のデータ(今回でいうと「【山口県】文化財一覧」が見つかったら、それをクリックして格納されているデータを表示します。

【山口県】文化財一覧にはcsvデータとエクセルデータの二種類が格納されているようなので、今回はcsvファイルをクリックしてみましょう。

すると、「データエクスプローラー」が画面に表示され、以下の流れのように、ダウンロードしないままに、データの中身を確認することができます。

エクスプローラー表示の流れ

ちなみに、そもそもどんなデータがあるか分からず、やりたい事や課題感しか整理できていない状態でも大丈夫。その場合は、こちらを使ってAIの力を借りながらデータを探すこともできます。

この機能を使って興味のあるデータ(緑色)を見つけたら、右クリックから「リンクを開く」でカタログサイト内のデータを開くことができます。

2.データの中身をチラリと確認する

見てみたいデータに辿り着いたら、まずはデータの中身を確認してみます。

どんなデータが何件くらい入っているのか、データ項目はどんなものがあるのか、等を見てみて、自分の興味に合致するかどうかを確認してみましょう。

ちなみに、最初は「1-100」といった形で先頭の100件が表示されていますが、「751 records」とあるように、全部で751件のデータがあることが分かりますので、「100」のボックスに「751」と入力することで、全件データの内容を確認することもできます。

ここではデータ項目に「緯度」「経度」が含まれていることがわかりました

3.データを地図にプロットしてみる

先ほどのデータに「緯度」と「経度」という、位置情報を保有していることがわかったので、こんどは地図にプロットしてみましょう。

まず、データエクスプローラーの「Map」ボタンを押してください。
すると、地図の右欄外に設定項目が表示されています。

「Latitude/Longitude fields」にチェックをいれて、その下のLatitude field欄にデータ項目「緯度」を、Longitude field欄にデータ項目「経度」を指定し、Updateボタンを押下すると、地図上にデータがプロットされると思います。

先頭100件を地図プロットした状態

上記は先頭の100件のみプロットした状態なのですが、全件(751件)全てをプロットしたい場合は、上部のボックスに「1-751」と入力して地図表示をしましょう。

全件プロットをしたところ

すると、世界地図が表示され、何かアフリカの方にデータがプロットされてしまっています。なんだこれは。。。

これは、位置情報が入っていないデータがプロットされているということで、なぜここになるのかというと、「緯度0、経度0」とみなされているというものです。

ポイントされたマークをクリックすると、データの中身を確認すること出来ますので、「住所不定」など、確かに位置情報が入っていないデータということを確認することもできます。

さて、地図は拡大縮小ができるので、見たい縮尺に調整してみましょう。

全件表示を山口県まで拡大したところ

これだけでも、県内の分布状況がざっくりと確認できますが、更に、エリアごとにどのくらいの件数があるのか、数字で見たいなと思いましたので、以下、操作を進めます。

4.エリアごとの分布を確認しながら探索してみる

先ほどのMap機能の右側の設定項目エリアの下の方に「Cluster markers」というチェック項目がありますので、そちらにチェックを入れてみましょう。

すると、先ほどは個別にプロットされていたものが、数字付きの円の状態で近くの物を丸めた形で表示されます。

アフリカ近辺(位置情報がない)のデータは5件あるようです

チェックしても表示が更新されない場合は、「Cluster markers」にチェックを入れた状態で、先ほどと同様に「緯度」と「経度」を設定しUpdataボタンを押下します。

ここから日本近辺に表示されている数字をクリックしていくと、地図が拡大されながら、どのエリアにどのくらいのプロットが固まっているか、探索的に表示していくことができます。

是非興味のあるエリアだったり、数字が多いエリアなんかを見つけてそこから更に深堀していくなど、自分なりの仮説を持ちながら表示をしてみましょう。

どんどん拡大されていくので楽しいです

5.データを絞り込んでみる

751件はちょっとデータが多すぎるし、もうちょっとデータを絞り込んで見てみたいな、などという時にはフィルターを使用することもできます。

例えば重要文化財のみの分布を見たい時には、フィルターに「文化財分類」を追加して、「重要文化財」等と設定することで、全件データから必要なデータのみピックアップすることができます。

重要文化財128件を絞り込んだ状態

この状態でMapボタンを押下すると、絞り込んだ128件のみを地図上にプロットすることができます。便利。

どこに重要文化財が多いか概観できますね

6.おわりに

ということで、いかがでしたでしょうか。このプレビュー機能、案外便利に使うことができますよね。

もちろんあくまでもプレビュー機能なので、もっと掘り下げた分析をしたり、他のデータと組み合わせて分析したりはできないのですが、単一データを概観するだけであれば手軽に使えてとても便利だと思います。

ちなみに、複数データを同時にプロットするのであれば、オープンデータマップ上で最大5データまで色違いのポイントで表示することもできます。

データをダウンロードして、ハラマルさんのようにTableauで可視化したり、J-Stat Mapのようなツールを使って地域ごとの特徴を分析することもできます。

是非みなさんも色んな視点からデータを見てみて、疑問に思ったり、深堀してみたくなったりしたら、実際にデータをダウンロードして、ご自身でもオープンデータを分析して見られては如何でしょうか。

この記事が参加している募集