Googleデータアナリティックス - 16週目 データのクリーニング・Excelを使った処理
Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。
今回はExcelを使ったデータクリーニングについて学びました。ようやく本物のデータ分析に活かせる技術を学べる段階に入ったので、ワクワクしてきました。
データのクリーニング・Excelを使った処理
IBMの試算によると、不適切なデータ処理によって生じる損失は
米国だけで3兆1000億ドル(約401兆3000億円)に上るとされている。
主な要因は破損や転送の失敗ではなく、ヒューマンエラーであることがほとんど。ヒューマンエラーを削減しデータの完全性を保障することは、社会を豊かにすることに繋がる。
ヒューマンエラーや破損により完全性がなくなったデータを、
「汚いデータ」(Dirty Data, ダーティーデータ)と呼ぶ。完全性があり課題したい解決に即したデータは、「クリーンデータ」という。
コンピューターを使った計算は大量・高速にできるという利点があるが、
人間がヒューマンエラーをしないことが大前提となっている。
データをクリーンにするには、ヒューマンエラーの削減・ダーティー要素の訂正に使うツールの使い方を学ぶ必要がある。
データのクリーニングを担当する役職
データを分析する際は汚いデータであることが寧ろ多い。
汚いデータの種類
汚いデータの把握と修正
データクリーニングのプロセス
Excelを使ったデータクリーニング
Excelにはフィールド長を指定できるほか、データ内の不要な文字列を削除する・小文字・大文字を統一する・条件付き書式にする等のクリーニングに使える機能が充実している。
Excelでクリーニングをするには、まずデータ属性にフィルターを追加する。(データ→フィルタ)空白行の削除は、各データ属性の空白セルを表示することで行える。
また列方向に長いロングデータとしたい場合は、
形式を選択して貼り付け→行/列を入れ替えで行列を入れ替えることができる。
スペルミスや空白文字を消したい場合は、ホーム→編集→置き換えから置換ができる他、SUBSTITUTE関数・TRIM関数を使用し文字列の前後の空白を削除する事ができる。
大文字・小文字の変換には、UPPER関数・LOWER関数を使う。
条件付き書式をExcelで使うには、ホーム→条件付き書式設定を使う。
半角空白やその他不要な文字列を除去したいときに役立つ。
文字列を抽出・結合するには、LEFT・RIGHT・MID関数、CONCATENATE関数を使う。データ列から特定の値と合致する別と同じデータを抽出したい場合は、VLOOKUP関数を使う。