![見出し画像](https://assets.st-note.com/production/uploads/images/95345121/rectangle_large_type_2_00962ef2716d0db1eeb08edb3bfe85f9.png?width=1200)
Googleデータアナリティックス - 10週目 探索用データの準備
Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。
今回で全体の33%が完了しました!頑張れてますね。
構造化データと非構造化データ、データのタイプ、データ形式について学習してます。データ分析のプロセスでは、準備と処理に相当する段階ですね。
探索用データを準備
構造化データと非構造化データ、データのタイプ、データ形式について学ぶ。またプライバシーと倫理、データベースへのアクセス、データの整理と保護についても学習する。
データの収集
データは、われわれ人間が世界で何らかの活動をしたことの結果として生成される。ソーシャルメディア、モバイルデバイス、デジタル画像、等々がデータの生まれる場となっている。
Googleの様な私企業のほかにも、政府がデータを収集する場合もある。
アメリカ合衆国国政調査局では、国の人口に関する情報を収集している。
このデータは、データ主導の意思決定に基づいて学校・病院・消防署などの資金調達に応用されている。調査局は、企業のニーズの把握に役立つ年次企業調査(Annual Bussines survey)といったデータも公開している。
データを収集する方法
1、インタビュー
2、観測
3、フォーム
4、アンケート
5、調査
6、クッキー(PC内に保存されるアクセス履歴)
収集すべきデータを決定
分析に必要なデータの収集において注意すべきポイントは、データの収集方法と適切なデータを選択する事である。
1、データの収集方法
自社のリソースを使うか、他社からデータを提供してもらうか
2、データソース
データを提供してもらう場合、セカンドパーティ・サードパーティのどのようなデータを入手するか
3、事業における課題
データが本当に課題解決に役立つデータか
4、どれだけのデータを収集するか
自力でデータを収集する場合、そのサンプルサイズは合理的な範疇で決定する
5、期間
どのくらいの期間データを収集する必要があるかを決定する
データの形式
データの形式に基づく分類
1、定性データ、質的データ(Quality Data)
名前、カテゴリー、説明
定性データは、更に名義データ・順序データに分かれる。
・名義データ(Nominal Data)
一定の順序を持たずに分類されたデータ。「はい、いいえ、わからない」形式のアンケートなど
・順序データ(Ordinal Data)
一定の順序・尺度で分類されたデータ。映画の1-5評価など
2、定量データ、数値データ(Quantitiy Data)
離散値(Discrete Data)・連続値(Continuous Data)などの数値
映画の評価・レストランの格付けといった定性データは、点数評価などを活用することで
定量データとして扱うこともできる。
構造化データ・非構造化データ
データには、構造化されているものと構造化されていないものが含まれる。
データを構造化することはスプレッドシートやリレーショナルデータベースに保管すること、保管したデータから情報を引き出ししやすくすることに役立つ。
問題は、非構造化データの扱いである。
画像・音声・映像ファイルは構造化が難しいデータの一例である。
データ分析の本質は、構造化データから情報を引き出すことと非構造化データを何らかの方法で構造化することである。
非構造的なデータを分析するには、サポートベクターマシーンやディープニューラルネットワークの様な非構造化データを構造化するためのフレームワークが必要となる。人間はこうした非明示的な処理を生得的にできるが、機械学習などでそれを実装するにはアルゴリズムと手法を工夫する必要がある。データサイエンティスト・アナリストが直面している新たな課題は、これらのツールが包括的で偏りのないよう公平性を担保することである。
データ型について
データがどのような値であるかを表すデータの属性。
多くの場合、データ型はつぎの3つに分けられる。
1、数値型
2、文字型
3、論理型
データテーブルについて
構造化されたデータベースでは、行に含まれるデータはレコード、
列に含まれるデータはフィールドと呼ばれる。
データテーブルは扱い次第でロングデータ・ワイドデータの2つに分かれる。
ロングデータは、特定の項目について各行が 1 つデータポイントを持つ
ワイドデータは、列で特定した項目に関して複数のデータポイントを含む
ロングデータが好ましい場合は高度な統計解析やグラフを作成するとき、
ワイドデータが好ましい場合は直線的なグラフの比較をするときとなる。
Kaggle ノートブック
Kaggleノートブックを使えば、どのようにデータ分析を行ったかという
処理の内容・得られたインサイトを共有することができる。
データ分析のサイクルで言えば、処理・分析・共有の3段階のプロセスを知るのに有効である。
データ分析スキルを向上させるうえで、Kaggleは他のデータアナリストのデータ処理法を学ぶほか、自身のデータ分析プロジェクトに対するフィードバックを得るのにも有効である。