Googleデータアナリティックス - 8週目:表計算ソフトを使ったデータ分析
Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。
今回はExcel・Googleスプレッドシートなどの表計算ソフトの使い方について学びました。
表計算ソフトの素晴らしさ
データの前処理に最も最初に使うのは、Excel等の表計算ソフトである可能性が高い。Google スプレッドシートを使えば、スプレッドシートの内容をクラウド上で共有できる。
データを準備・処理する段階で、コワーカーと共にインサイトや分析の手法について意見を交換し合うことができる。またチームメンバー間のコラボレーションを高める方法として、遠隔地のマネージャーにレビューを依頼するなど異なる空間・場所のコワーカーと協力する体制をGoogle スプレッドシートで整えることができる。
数式の使い方
スプレッドシートの機能の中で最も便利なものの 1 つが数式である。
数式を使用するとデータアナリストは簡単に高度な計算を自動的に行うことができ、より効果的なデータ分析が可能になる。
表計算ソフトの数式で使われる演算子には、以下のようなものがある。
表計算ソフトの数式を使う際、以下の機能を使うと入力が便利になる。
関数の使い方
関数を使用するとデータを使って特定の処理や作業をすることができる。
要約統計量を求めるのによく使われるのが、SUM, AVEGARE, COUNT, MIN, MAXである。
構造化思考を使った活用法
スプレッドシートやSQLで物事を解決するには、構造化思考を使って的確な課題提起をする。
最初のピース→課題領域(Problem Domain)
課題に影響を与える全ての、あるいは特定の分析領域。
課題領域をすみやかに特定することが結果的に時間・コスト・リソースの大幅な削減につながる。
作業範囲(SOW, Scope of Work)
プロジェクトで実行される合意されたタスクの概要。
例えば成果物、タイムライン、マイルストーン、レポートを制作するタスクがSOWに相当する
SOWの書き方
客観的な視点
データは孤立して存在しているのではなく、そのコンテキストが存在する。
コンテキストとは、「何かが存在、あるいは発生する状態、状況」を表す。
データ分析がより性格で公平なものになるためには、こうした5W1Hを含んだコンテキストを考慮する必要がある。
コンテキストは、ローデータを意味のある情報に変えることができる。