DATA Saber オフライン勉強会に参加してきての振り返り(24年08月09日)
DATA Saberの師匠陣がオフライン勉強会を開催してくださったので参加してきました!
そこで行ったことと学んだことを自身の振り返りのために整理していこうと思います。
勉強会の流れ
Viz作成時の留意点解説
Viz作成練習会
成果物発表会
"1.Viz作成時の留意点解説"については、メモが会社PCにしか残っていないので一旦割愛…!
Viz作成練習会の概要
使用データ
SSDSE-社会生活(SSDSE-D)(SSDSE-D-2023.xlsx)
全国・47都道府県×男女別×社会生活121項目
後述の利用によりcsvでは上手くできないことがあるので今回はExcelを使用
こちらは独立行政法人 統計センターから提供されている'SSDSE(教育用標準データセット)'というものの一つになります。
このSSDSEはなかなか使い勝手が良さそうでして、
データ分析向けに整形されたTidyデータ(になっていそう)
注:1行目と2行目で併せてカラム名の役割を担うので少し注意が必要データカタログが用意されている
日本語
という手厚さでした。
データ分析やデータ整形の練習用にサンプルデータセットをWebで探したことがある方にはこのありがたみが分かるのではないかなと思います…笑
世に溢れ返るデータセットの大半はこれら3項目の1つも満たしていないのではないでしょうか?笑
良い時代になったものです。
【おまけ】Tidyデータとは
聞き馴染みのない人に一応説明すると以下の条件を満たすデータになります。
Rユーザーにはお馴染みのggplot2 、plyr、dplyr、reshape2といったTidyverseの生みの親であるHadley神が提唱した概念ですね。
日頃データ分析を行っている方であれば言葉は知らなくとも概念自体にはピンと来たのではないでしょうか?
詳細や正確な話は以下を御覧ください。
練習内容
制限時間は45分
最終成果物としてダッシュボードを作成
使用データ以外のテーマは自由
という自由型で練習しました。
実際のViz作成
最初にやったこと:データインタープリターの使用
先ほども軽く触れたとおりEscelファイルをTableduで開いてみると下図のように1行目と2行目で併せてフィールド名の役割をしていることが分かります。
1行目が項目IDで2行目が論理名といったイメージですね。
このままではTableauで取り扱うことができないのでフィールド名を適切に変更してあげる必要があります。
Excelやテキストエディタで開いたのちに1行目の項目IDを削除してあげてもよいのですが、今回はTableauの機能'データインタープリターの使用'を適用しました。
上図のチェックボックスを選択することで下図のとおりフィールド名を再認識してくれます。
データインタープリターの使用後は'結果のレビュー'というリンクが表示されるようになり、そちらをクリックすることで下図のとおりどのように処理をしたのか簡単に説明するExcelファイルを生成してくれます。
今回のケースでは1行目と2行目をヘッダーと認識してくれたので、フィールド名は1行目と2行目を結合したものになっています。
一見すると不要な項目IDが接頭辞になってしまったようにも見えますが、各フィールド名のカテゴリ(MA, MB, …, MG)を認識しやすくなるのでこれは利点だと私は考えてそのまま利用しました。
使い慣れていないデータを扱う際に先入観や勘でカテゴライズしてしまわずに、データ作成者の意図したとおりにカテゴリを認識できるという観点からの判断です。
あと、Tableauはワークシート内でフィールド名を昇順に表示するので、この項目IDが付くことで同一カテゴリが並んで表示されるのも個人的には結構嬉しいです。
【補足】csvを使用しなかった理由
※今回使用した環境はWindows版Tableau Pubslic 2024.2になります
元々はcsvを使用するつもりだったのですが、2行目の項目
IDを正しく認識してくれず、データインタープリターを使用した際に項目IDのみでフィールド名を生成してしまうので今回は使用を見送りました。
Excel板もデータインタープリターの使用前は2行目を正しく認識しておらず、csv版と同様に4列目以降の項目名がNULLのなってしまうのですが、こちらはデータインタープリターを使用することで問題を解消することができました。
前置きが長くなりましたがデータの下処理が完了したので分析に取り掛かります。
まず可視化
制限時間があるのである程度決め打ちで分析しようと思いました。
そこでまずディメンションを確認し以下の2項目が気になったので可視化してみることにしました。
気になった理由としては直感的に以下の仮説を立てたからです。
何をするにも自由時間の長短(≒'仕事からの帰宅時間'の早い遅い)が影響しそう
都市部とその他とで'仕事からの帰宅時間'の早い遅いに傾向が出ていそう
そしてせっかく都道府県という位置情報を持っているので日本地図上に傾向を可視化してみることにしました。
東京近郊が他地域と比べて帰宅が遅いところまでは想定通りだったのですが思いの外あまり差がない印象を受けたので、さらに男女別で見てみましょう。
こうして見ると地域差も存在するのですが、性別による差の方が大きそうですね。
何はともあれ'都道府県×性別'の粒度であれば帰宅時間差に傾向があるということが見えてきたところで、今度は肝心の'社会生活'に影響しているのかを見ていきました。
集計を作成
時間がないので注目する項目は各カテゴリの総数である以下5項目に絞ることにします。
MB00 学習・自己啓発・訓練の総数
MC00 スポーツの総数
MD00 趣味・娯楽の総数
ME00 ボランティア活動の総数
MF00 旅行・行楽の総数
また、これらの値は以下に説明のとおり割合なので、合計や平均を使って集計する際には前処理が必要になります。(平均の平均や、平均の合計は意味を持たないので)
下図の集計を定義してあげれば、粒度が変わってもその粒度内で加新たに重平均を計算してくれます。
Tableauはこの計算をインタラクティブに行ってくれるのが嬉しいですね。
複製とドラッグ&ドロップによるフィールドの置換を利用して効率良く他項目の集計も作成していきます。(私はこれしか思いつかなかったのでもっといい方法があれば教えて欲しいです!!!!!)
5項目ともに集計を定義してあげたところでいよいよ傾向を探していきます!
分析結果
と思ったところでタイムアップとなり、結局示唆を見つけることはできずに終了という結果になりました。。。
簡単な操作しかしていないはずが、ちょこちょこ迷ったり止まったりしたせいで時間を浪費してしまったのが敗因です。
リード文も作れずですし、当初の仮説であった帰宅時間との関係はおろか男女の別で見てもイケてる示唆は得られずという結果になりました。
何ならスポーツについては帰宅時間が遅いグループの方が行動者率が高いという直観に反する結果となりました。
限りある時間の中で結果を出すことの難しさを改めて思い知らされました。
分析リベンジ
悔しいので家で再度分析してみた結果を発表します!!!!!
悔しいというのは9割嘘ですが、単純に消化不良なので…笑
アプローチの変更
勉強会では制限時間の都合で仮説思考という名の決め打ちですすめて何もでなかったので、探索的データ分析に切り替えました。
「そもそもバラツキの小さな項目に注目しても示唆を見つけるのは難しいしなあ……せや!変動係数を確認しよう!」
ということで、各項目の変動係数を確認することにしました。
【補足】
実は最初は標準偏差で比較しようとしていたのですが、次元の異なる項目(MG始まりは生活時間でその他は行動者率)が存在するので無次元化してあげた変動係数を用いる方が適切と考えました。間違っていたら教えていただけると幸いです……!
変動係数の確認方法
全てのメジャーバリューを放り込んであげたのちに 標準偏差 変動係数の大きな項目を特定してあげてもいいのですが、異なるメジャーバリューの同士は値の降順でソートをかけられないので今回のように項目数が多いとちょっと厳しいです。
【補足】
標準偏差や平均値といったTableauで簡単に切替可能な集計での確認が適切な場合は上記のとおりゴリ押し可能です。
ただ、今回見るのは変動係数、つまりメジャーバリューの種類だけ計算を定義してあげる必要があるのでそれは厳しいと思います。そして例を用意する気力はなかったので標準偏差のままで図は残しています!!!!分かりにくくてゴメンナサイ!!!
ということでデータソースを新たに取り込み直した上で縦持ちに変換(ピボット)をしてあげます
ディメンション、時刻および比較する気のない人口以外を選択してあげて縦持ちのデータにしてあげます。
そうすると下図のように放り込んであげるフィールドが一つで済む上に、元々のお目当てであった変動係数でのソートが可能になります。
パッと見で状況が分かりにくいでので、項目区分で色分けしてあげ棒グラフに直してあげます。
上位に入ってくるのは行動者率がメインで、Top10に食い込む生活時間に関する項目は家事だけですね。
バラツキが多い項目同士の影響を確認
下図のとおりプロットしてあげると、ほとんどの項目が"男女の別"でクラスターを形成しているように見えます。これは各項目同士の影響よりも"男女の別"による違いが影響を及ぼしており、その結果としてバラツキが生じていることを示唆しています。
今回注目している項目も'MG07 家事'を除いて趣味の活動と言っても差し支えなさそうな項目ばかりなので直観にも合った結果かと思えます。生活時間の項目で唯一TOP10に食い込んできた家事についても、何だかんだで現代においても男性は家事をあまりしないという感覚と合ってしまったのかなと……笑
では項目同士の影響が全くないのかというとそんなことはなく、以下の傾向は捉えられるかと考えました。
'華道'と'茶道'をやっている層は被っている
'編み物・手芸'と'和裁・洋裁'をやっている層は被っている
ついでにバラツキが多い生活時間TOP3の相関を確認したものが下図になります。
こちらも項目同士の影響よりも男女の別による影響が効いていそうですね。
結論
項目同士の影響が存在しないと言い切ることはできないが、男女の別による影響が大きそう。
とはいえ、様々なバイアスが入った上での結果だとは思いますし、寧ろ男女の別以外が影響するような切り口や別のデータソースを見てみたい気はしますね!
最後に
以上で勉強会の振り返りとさせていただきます。
なかなか時間がとれないし、そもそもnoteを書き慣れていないやらで投稿までにだいぶ時間が空いてしまいました。着手は翌日だったのに…!
これからはもっと時間を意識したアウトプットを心がけます。若手社会人みたいな心がけで恥ずかしい限りですが、初心に帰る機会を得れたということで……笑
今回作成したVizは以下に格納しておりますのでご参考までに。
240810_オフライン勉強会_アップロード用
それでは長文失礼いたしました。