見出し画像

データ利活用の教科書⑤:データ分析の4つの視点と、分析手法の種類について

読書ノート(115日目)
さて、今日もこちらの本を
紹介していこうと思います。

本書を5回に分け、今回まで
以下についてを紹介してきました。
・データ利活用とデータリテラシー
・イシューについて
・リサーチを活用した1次データ収集
・データ分析の手法①
・データ分析の手法②

ということで今日は最後の
・データ分析の手法②
についてです。

・誤差には大きく2種類ある
 ランダム誤差(偶然誤差)バイアス(系統誤差)
・ランダム誤差
 ランダム抽出した際に生じる誤差でサンプリング誤差。
 サンプルサイズを増やすほど、この誤差は小さくなる
・バイアス
 (1)選択バイアス
  例)インターネット調査の場合、ネット非利用者が含まれない。
    回答率が低い場合は非回答者と回答者の間に傾向差があるなど
 (2)情報バイアス
  曖昧な質問文、誘導質問で生じやすい。
  調査項目の順番でも結果が変わる
 (3)交絡バイアス
  2つの因子を分析する際に、背後に隠れて存在する交絡因子
 (第三因子)の影響がある
 (4)確証バイアス
  自分の仮説や信念に整合する情報ばかりを集めてしまうこと

・データの前処理について
 ・欠損値の処理
 ・外れ値(異常値)の処理
 ・表記ゆれの統一
 ・データ方向の修正(非常に満足が5のアンケート回答と、
   非常に満足が1のアンケート回答がある場合に逆値処理をする)

・データ加工について
 (データ分析をしやすくするために新しい変数を作成する)
 ・順序ラベル・エンコーディング
  ※データに順序性がある場合(サイズ表記のS,M,Lなど)
 ・One-hotエンコーディング(ダミー変数化)
  ※データに順序性が無い場合(商品名など)
 ・ビニング(カテゴリー化)
  ※個別の数値データを「〇〇以上~〇〇未満」等、カテゴリー化する
 ・加重平均値の設定 
 ・合成変数の作成
 ・データの標準化

・データ分析とは「比較を通じて、意味合いを抽出する」こと
・データ分析の4つの視点
 差がある:データ間の差異やギャップ
 変化がある:時系列でのトレンド
 バラつきがある
:分布
 パターンがある
:相関

・多変量解析(3つ以上の変数の場合の分析手法)の2つのアプローチ
・多くの変数を分類・縮約して見通しを良くしたい場合
 因子分析、主成分分析、クラスター分析、
 コレスポンデンス分析、MDS(多次元尺度構成法)など
・総合評価を高めるキードライバーを見つけたい場合
 重回帰分析、数量化1類分析、ロジスティック回帰分析、
 判別分析、決定木分析など

・多変量解析はデータを人間が理解・判断できるよう説明するために用い、
 機械学習は(人間が理解・説明できなくても)データを予測することを
 目的に用いられることが多い

今回はデータ分析の視点や
手法について紹介してみました。

それぞれの分析手法の概要や詳細は
ぜひ本書をご参照ください。
(YouTubeでも分かりやすい動画が多く
 出ていますので、そちらでも!mm)

実際、僕自身はこれらの手法のうち
現在はまだ僅かしか使ったことがなく
目下勉強中というのが現状です。

実際に仕事で良く使用しているのは
・グループAとグループBの平均の差が
 有意かどうかを検定する:t検定
・グループAとグループBの数値に
 どの程度の相関があるか:相関分析
が多く、データから仮説を見つけたり
仮説を検証するために使用しています。

ところで、確率を活用した統計は
18世紀頃から発展してきたという
ことで、200年以上の歴史があり
そのため様々な流派があるようです。

データの中身や目的に応じて
適切な分析手法を選択できるよう、
まずはどんな分析手法があるかを知り
実際に自分で使ってみることで習得する
というサイクルを繰り返して
これからも1つずつ自分の武器を
増やしていきたいと思います!

それではまたー!😉
皆さんも良いGWを!✨

いいなと思ったら応援しよう!

この記事が参加している募集