見出し画像

Tableau Desktopを使ったデータ前処理の時短レシピ

執筆現在、Tableauコミュニティの認定プログラム「DATA Saber - Bridge 3rd」に挑戦中のべっち(@becch_y) です。

今回はTableau Desktopを使って「データ前処理の時短レシピ」について共有します。オープンデータを題材に説明しますがオープンデータに限らずデータを視覚化、分析するためには扱うデータの前処理が必要になってきます。
Excelなど他のツールで同じことをすると?をイメージしながら読んでいただければと思います。


1.データの前処理はなぜ必要?

データとは人の営み、自然現象などの結果がデジタルとして記録されたものです。「記録」としてのデータという観点では世の中のデータは整備が進んでいると考えます。対して「分析」対象としてのデータという観点となると分析の目的に合わせて整形や欠損値の補完など分析前の「前処理」が必要となってきます。データを事前に整えておくことで分析に集中できる環境を手に入れることができ、結果、新たなインサイトを得られる可能性があります。さらに扱いやすいデータはより多くの人の目に触れ、理解され、より多くのインサイトを生む可能性があります。前処理は非常に重要なプロセスです。

2.手作業でデータを前処理するリスクとTableauで前処理を行うメリット

通常Excelなどを使ってデータを直接加工もできますが、その際に下記リスクがあります。

・元のデータを意図せず変えてしまう、誤ってデータを削除してしまう
・上記のような加工ミスで前処理がやり直しになってしまう
 結果、前処理に時間がかかってしまう

これを回避するためにも今回紹介するTableauを使うメリットがあります。Tableauでは、

元のデータソースファイルを一切更新せずにツール上のみで前処理ができる

というメリットがありますので前述のリスクを回避しながら時間を掛けずにデータを綺麗に扱いやすくすることが可能となってきます。

3.今回扱ったデータ

今回使ったデータソースは下記のオープンデータです。Excel形式のファイルです。

参考までに上記オープンデータを使って作成したTableau ダッシュボードです。

4.データの前処理レシピ

今回ダッシュボードを作成する際に行った手順から個人的にもよく使う前処理を4つ紹介します。

利用したTableauのエディション/バージョン:
Tableau Desktop Public Edition / 2024.2.0

※時短度合いを◎/◯で表してますが作業者の各ツールの習熟度によって変わってきます。

(1)分析に不要なヘッダを削除する(時短:◯)

Excelでよくあるタイトルや説明行です。分析時に欲しいのは5行目のヘッダー行以下です。

Excelデータソース:Excelの場合は手で不要行削除する?(消しすぎリスク&消した履歴残らない)

■加工方法
(a)[データソース]タブの[データインタープリターの使用」をONにする。

これだけです。データインタープリター機能はTableauが簡易的にデータ前処理してくれる便利機能です。

Before

Tableau:列見出しが正しく認識されない。タイトルがデータ行とみなされている

After 

Tableau:列見出しが正しく設定され、タイトル行もデータから除外されました

(2)集計列を削除する (時短:◯)

元データ上はその資料内でストーリを完結させるために集計値が示されていることがあります。

Excelデータソース:Excel上で消してもいい(が復元できない)

Tableau上では集計をかける単位=詳細レベル(LOD)を分析目的に合わせて分析時に設定が可能です。集計はTableau側に任せることとして、一旦データ上は非表示とします。

■加工方法
(a)[データソース]タブの当該列のヘッダを右クリックして[非表示]にする。

(3)年月情報をピボットして縦持ちにする(時短:◎)

列(表の左から右へ)で「年」や「年月」情報を記録しているケースです。

Excelデータソース: 令和5年,令和4年 と年ごとに列がある

Tableauのピボット機能で、元々の「列データ」を一般的に分析時に扱いやすい「行データ」に変換します。

■加工方法
(a)[データソース]タブの日付列名をShiftを押しながら同時選択。
 (今回のデータでは"R5"列と"R4"列)
(b)右クリックで「ピボット」を選択
(c)ピボットで作成された2列の名称変更
 例:
  「ピボットのフィールド名」 →「年」
  「ピボットのフィールド値」→ 「観光客数」
(d)日付項目の型を文字列から日付型へ
 元データが"2023/1"などの日付型として認識されやすい列名の場合は、
 「年」を文字列型→日付型に変更するだけです。

今回の題材データは"R4" / "R5" → "2022/01" / "2023/01" に変換するために別途計算フィールドを用意して年情報はこちらを参照するようにしました。

作成する計算フィールド「年月日」(日付型)

if [年]="R4" then "2022/1/1" 
elseif [年]="R5" then "2023/1/1"
end 

ということで無事に年情報を行データ(縦持ち)に変換できました。

(4)Excel上の結合セルを解除する (時短:◎)

特にExcelデータの場合、見やすさを優先してセル結合をしているケースがあります。分析する際には各行にデータが入っていて欲しいところです。

左:Excleデータソース → 右: Tableau(データインタープリターの使用=ON後)

■加工方法
(a)[データソース]タブの[データインタープリターの使用」をONにする。

こちらもこれだけです。Excelで結合解除して上のセルの内容をコピーしてという手間を掛けずともワンクリックです。

いかがでしたでしょうか。これ以外にも様々な前処理があります。今回はその中でも出会う頻度の高そうなものをチョイスして紹介しました。

5.まとめ

今回の内容をまとめます。

・前処理はデータ分析にはほぼ必要となってくるプロセス
・前処理を手作業で行うと加工を誤るリスク
・Tableau を使ってデータ前処理プロセスをリスク回避しながら
 効率化/時短が可能

ExcelやCSVのファイルを加工する際、実際のところExcelも非常に便利な万能ツールですので、それで済ませてしまいたいということもあると思います。Tableau を使うことにより、効率的に安全にデータの前処理を行うことができます。

今回は参考までとなりますがTableau Prep Builderという前処理ツールもあります。よりデータの加工に特化したツールで更なる効率化が可能ですが、今回紹介したTableau Desktop でも前処理は可能ですので、ぜひ活用し時短に繋げていただければと思います。

ここまで読んでいただきありがとうございました。これからデータ分析、活用を始めようとされている方の参考となれば幸いです。

いいなと思ったら応援しよう!