Googleデータアナリティックス - 10週目 探索用データの準備
Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。
今回で全体の33%が完了しました!頑張れてますね。
構造化データと非構造化データ、データのタイプ、データ形式について学習してます。データ分析のプロセスでは、準備と処理に相当する段階ですね。
探索用データを準備
構造化データと非構造化データ、データのタイプ、データ形式について学ぶ。またプライバシーと倫理、データベースへのアクセス、データの整理と保護についても学習する。
データの収集
データは、われわれ人間が世界で何らかの活動をしたことの結果として生成される。ソーシャルメディア、モバイルデバイス、デジタル画像、等々がデータの生まれる場となっている。
Googleの様な私企業のほかにも、政府がデータを収集する場合もある。
アメリカ合衆国国政調査局では、国の人口に関する情報を収集している。
このデータは、データ主導の意思決定に基づいて学校・病院・消防署などの資金調達に応用されている。調査局は、企業のニーズの把握に役立つ年次企業調査(Annual Bussines survey)といったデータも公開している。
データを収集する方法
収集すべきデータを決定
分析に必要なデータの収集において注意すべきポイントは、データの収集方法と適切なデータを選択する事である。
データの形式
データの形式に基づく分類
構造化データ・非構造化データ
データには、構造化されているものと構造化されていないものが含まれる。
データを構造化することはスプレッドシートやリレーショナルデータベースに保管すること、保管したデータから情報を引き出ししやすくすることに役立つ。
問題は、非構造化データの扱いである。
画像・音声・映像ファイルは構造化が難しいデータの一例である。
データ分析の本質は、構造化データから情報を引き出すことと非構造化データを何らかの方法で構造化することである。
非構造的なデータを分析するには、サポートベクターマシーンやディープニューラルネットワークの様な非構造化データを構造化するためのフレームワークが必要となる。人間はこうした非明示的な処理を生得的にできるが、機械学習などでそれを実装するにはアルゴリズムと手法を工夫する必要がある。データサイエンティスト・アナリストが直面している新たな課題は、これらのツールが包括的で偏りのないよう公平性を担保することである。
データ型について
データがどのような値であるかを表すデータの属性。
多くの場合、データ型はつぎの3つに分けられる。
データテーブルについて
構造化されたデータベースでは、行に含まれるデータはレコード、
列に含まれるデータはフィールドと呼ばれる。
データテーブルは扱い次第でロングデータ・ワイドデータの2つに分かれる。
ロングデータは、特定の項目について各行が 1 つデータポイントを持つ
ワイドデータは、列で特定した項目に関して複数のデータポイントを含む
ロングデータが好ましい場合は高度な統計解析やグラフを作成するとき、
ワイドデータが好ましい場合は直線的なグラフの比較をするときとなる。
Kaggle ノートブック
Kaggleノートブックを使えば、どのようにデータ分析を行ったかという
処理の内容・得られたインサイトを共有することができる。
データ分析のサイクルで言えば、処理・分析・共有の3段階のプロセスを知るのに有効である。
データ分析スキルを向上させるうえで、Kaggleは他のデータアナリストのデータ処理法を学ぶほか、自身のデータ分析プロジェクトに対するフィードバックを得るのにも有効である。