見出し画像

Googleデータアナリティックス - 16週目 データのクリーニング・Excelを使った処理

Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。

今回はExcelを使ったデータクリーニングについて学びました。ようやく本物のデータ分析に活かせる技術を学べる段階に入ったので、ワクワクしてきました。

データのクリーニング・Excelを使った処理

IBMの試算によると、不適切なデータ処理によって生じる損失は
米国だけで3兆1000億ドル(約401兆3000億円)に上るとされている。
主な要因は破損や転送の失敗ではなく、ヒューマンエラーであることがほとんど。ヒューマンエラーを削減しデータの完全性を保障することは、社会を豊かにすることに繋がる。

ヒューマンエラーや破損により完全性がなくなったデータを、
「汚いデータ」(Dirty Data, ダーティーデータ)と呼ぶ。完全性があり課題したい解決に即したデータは、「クリーンデータ」という。

コンピューターを使った計算は大量・高速にできるという利点があるが、
人間がヒューマンエラーをしないことが大前提となっている。
データをクリーンにするには、ヒューマンエラーの削減・ダーティー要素の訂正に使うツールの使い方を学ぶ必要がある。

データのクリーニングを担当する役職

データエンジニア
データを分析できるデータ型・ファイル形式に変換する、
データベース・システムの開発・保守・テストを担当する

データウェアハウススペシャリスト

データを保存・管理、クリーニングするプロセスを設計・開発する
データの損失を防ぐため、バックアップを確保する

データを分析する際は汚いデータであることが寧ろ多い。

汚いデータの種類

・重複したデータ - 測定指標に誤差が生じ、検索時に混乱が発生する
・古いデータ - 不正確・時代遅れな分析結果・意思決定
・不完全なデータ - 不正確な分析・課題解決に役立たない
・不正確なデータ - 不正確な分析・利益の損失
・矛盾したデータ - データの分類・セグメント化が困難となる

汚いデータの把握と修正

・フィールドに入力できるフィールド長を指定する
 (Excelでフィールド長を指定する、日付・名前などの正規表現チェックを行う等)
・データ検証を行う
 (データインポートする前に正確さや品質をチェックする)

データクリーニングのプロセス

1、元データをバックアップする
2、重複データを削除する
3、不要なスペース・空白行を削除する
4、スペルミス・小文字・大文字の混在などを解消する

Excelを使ったデータクリーニング

Excelにはフィールド長を指定できるほか、データ内の不要な文字列を削除する・小文字・大文字を統一する・条件付き書式にする等のクリーニングに使える機能が充実している。

Excelでクリーニングをするには、まずデータ属性にフィルターを追加する。(データ→フィルタ)空白行の削除は、各データ属性の空白セルを表示することで行える。

また列方向に長いロングデータとしたい場合は、
形式を選択して貼り付け→行/列を入れ替えで行列を入れ替えることができる。

スペルミスや空白文字を消したい場合は、ホーム→編集→置き換えから置換ができる他、SUBSTITUTE関数・TRIM関数を使用し文字列の前後の空白を削除する事ができる。

大文字・小文字の変換には、UPPER関数・LOWER関数を使う。

条件付き書式をExcelで使うには、ホーム→条件付き書式設定を使う。
半角空白やその他不要な文字列を除去したいときに役立つ。

文字列を抽出・結合するには、LEFT・RIGHT・MID関数、CONCATENATE関数を使う。データ列から特定の値と合致する別と同じデータを抽出したい場合は、VLOOKUP関数を使う。


いいなと思ったら応援しよう!