
Googleデータアナリティックス - 8週目:表計算ソフトを使ったデータ分析
Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。
今回はExcel・Googleスプレッドシートなどの表計算ソフトの使い方について学びました。
表計算ソフトの素晴らしさ
データの前処理に最も最初に使うのは、Excel等の表計算ソフトである可能性が高い。Google スプレッドシートを使えば、スプレッドシートの内容をクラウド上で共有できる。
データを準備・処理する段階で、コワーカーと共にインサイトや分析の手法について意見を交換し合うことができる。またチームメンバー間のコラボレーションを高める方法として、遠隔地のマネージャーにレビューを依頼するなど異なる空間・場所のコワーカーと協力する体制をGoogle スプレッドシートで整えることができる。
数式の使い方
スプレッドシートの機能の中で最も便利なものの 1 つが数式である。
数式を使用するとデータアナリストは簡単に高度な計算を自動的に行うことができ、より効果的なデータ分析が可能になる。
表計算ソフトの数式で使われる演算子には、以下のようなものがある。
加算 - プラス記号( + )
減算 - マイナス記号( - )
除算- スラッシュ( / )
乗算-アスタリスク( * )
表計算ソフトの数式を使う際、以下の機能を使うと入力が便利になる。
オートフィル
Microsoft Excel では緑色の小さな四角形、Google スプレッドシート では青色の小さな四角形になっている。フィルハンドルをクリックしたまま縦・横方向にドラッグすると、列内のセルに元のセルと同じ値または数式を自動的に入力することができる。また、インデックス・等差数を入力するのに使うことができる。
絶対参照
絶対参照はドル記号($)で示される。例えば =$A$10 で、列と行の両方の値を絶対位置で参照する。オートフィル等をする際に参照するセルを変更したくない時に使用する。
関数との組み合わせ
=COUNTIF(A1:A16, "7")という関数を使用すると、数字7を含むセルのみをカウントすることができる。数式と関数を組み合わせることで、データの整理・前処理に役立てることができる。
関数の使い方
関数を使用するとデータを使って特定の処理や作業をすることができる。
要約統計量を求めるのによく使われるのが、SUM, AVEGARE, COUNT, MIN, MAXである。
構造化思考を使った活用法
スプレッドシートやSQLで物事を解決するには、構造化思考を使って的確な課題提起をする。
最初のピース→課題領域(Problem Domain)
課題に影響を与える全ての、あるいは特定の分析領域。
課題領域をすみやかに特定することが結果的に時間・コスト・リソースの大幅な削減につながる。
作業範囲(SOW, Scope of Work)
プロジェクトで実行される合意されたタスクの概要。
例えば成果物、タイムライン、マイルストーン、レポートを制作するタスクがSOWに相当する
SOWの書き方
SOW には、何がプロジェクトの一部か具体的な情報を記載する
・成果物
プロジェクトの成果、どのような作業が行われ、何が生み出されるのかを明確にする
・マイルストーン
プロジェクトの進捗を示す主なマイルストーンは何か、完了したとみなすタイミング
・タイムライン
各ステップにどれくらいの時間がかかるかを予想する
・レポート
ステークホルダーにいつ、どのように状況を報告するか
客観的な視点
データは孤立して存在しているのではなく、そのコンテキストが存在する。
コンテキストとは、「何かが存在、あるいは発生する状態、状況」を表す。
データ分析がより性格で公平なものになるためには、こうした5W1Hを含んだコンテキストを考慮する必要がある。
コンテキストは、ローデータを意味のある情報に変えることができる。
誰が: データの収集を行った個人や組織
何を: データが影響を与える可能性のある世の中のこと
どこで: データが何処で制作されたか
いつ: データが作成または収集された時期
なぜ: データが作成または収集された理由
どうやって: データの作成・収集に用いた方法