![見出し画像](https://assets.st-note.com/production/uploads/images/104365820/rectangle_large_type_2_40f8aab2137ebf17b4e1c177ba9d1868.png?width=1200)
データ利活用の教科書⑤:データ分析の4つの視点と、分析手法の種類について
読書ノート(115日目)
さて、今日もこちらの本を
紹介していこうと思います。
本書を5回に分け、今回まで
以下についてを紹介してきました。
・データ利活用とデータリテラシー
・イシューについて
・リサーチを活用した1次データ収集
・データ分析の手法①
・データ分析の手法②
ということで今日は最後の
・データ分析の手法②
についてです。
・誤差には大きく2種類ある
ランダム誤差(偶然誤差)とバイアス(系統誤差)
・ランダム誤差
ランダム抽出した際に生じる誤差でサンプリング誤差。
サンプルサイズを増やすほど、この誤差は小さくなる
・バイアス
(1)選択バイアス
例)インターネット調査の場合、ネット非利用者が含まれない。
回答率が低い場合は非回答者と回答者の間に傾向差があるなど
(2)情報バイアス
曖昧な質問文、誘導質問で生じやすい。
調査項目の順番でも結果が変わる
(3)交絡バイアス
2つの因子を分析する際に、背後に隠れて存在する交絡因子
(第三因子)の影響がある
(4)確証バイアス
自分の仮説や信念に整合する情報ばかりを集めてしまうこと
・データの前処理について
・欠損値の処理
・外れ値(異常値)の処理
・表記ゆれの統一
・データ方向の修正(非常に満足が5のアンケート回答と、
非常に満足が1のアンケート回答がある場合に逆値処理をする)
・データ加工について
(データ分析をしやすくするために新しい変数を作成する)
・順序ラベル・エンコーディング
※データに順序性がある場合(サイズ表記のS,M,Lなど)
・One-hotエンコーディング(ダミー変数化)
※データに順序性が無い場合(商品名など)
・ビニング(カテゴリー化)
※個別の数値データを「〇〇以上~〇〇未満」等、カテゴリー化する
・加重平均値の設定
・合成変数の作成
・データの標準化
・データ分析とは「比較を通じて、意味合いを抽出する」こと
・データ分析の4つの視点
差がある:データ間の差異やギャップ
変化がある:時系列でのトレンド
バラつきがある:分布
パターンがある:相関
・多変量解析(3つ以上の変数の場合の分析手法)の2つのアプローチ
・多くの変数を分類・縮約して見通しを良くしたい場合
因子分析、主成分分析、クラスター分析、
コレスポンデンス分析、MDS(多次元尺度構成法)など
・総合評価を高めるキードライバーを見つけたい場合
重回帰分析、数量化1類分析、ロジスティック回帰分析、
判別分析、決定木分析など
・多変量解析はデータを人間が理解・判断できるよう説明するために用い、
機械学習は(人間が理解・説明できなくても)データを予測することを
目的に用いられることが多い
今回はデータ分析の視点や
手法について紹介してみました。
それぞれの分析手法の概要や詳細は
ぜひ本書をご参照ください。
(YouTubeでも分かりやすい動画が多く
出ていますので、そちらでも!mm)
実際、僕自身はこれらの手法のうち
現在はまだ僅かしか使ったことがなく
目下勉強中というのが現状です。
実際に仕事で良く使用しているのは
・グループAとグループBの平均の差が
有意かどうかを検定する:t検定
・グループAとグループBの数値に
どの程度の相関があるか:相関分析
が多く、データから仮説を見つけたり
仮説を検証するために使用しています。
ところで、確率を活用した統計は
18世紀頃から発展してきたという
ことで、200年以上の歴史があり
そのため様々な流派があるようです。
データの中身や目的に応じて
適切な分析手法を選択できるよう、
まずはどんな分析手法があるかを知り
実際に自分で使ってみることで習得する
というサイクルを繰り返して
これからも1つずつ自分の武器を
増やしていきたいと思います!
それではまたー!😉
皆さんも良いGWを!✨