見出し画像

データサイエンティストの仮説思考③:データを分類する力(+k-meansの進化版!?、x-meansについて)

読書ノート(128日目)
前回に続いて
今回もこちらの本からです。

・日本政府は「AI戦略2019」にて、
 デジタル社会の基礎知識(「読み・書き・そろばん」的な素養)
 として、すべての国民が「数理・データサイエンス・AI」に関する
 知識を身につけることを目標に掲げている

・データドリブン思考とは、データをもとに物事を考えること

・ビジネスパーソンが身につけるべき
 6つのデータリテラシーとは
 (1)データを読む力
 (2)データを説明する力
 (3)データを扱う力
 (4)データを分類する力
 (5)データから法則を見つける力
 (6)データから予測する力

この読書ノートでは全5回に分けて
データを読む力
②データを説明する力
③データを分類する力
④データから法則を見つける力
⑤データから予測する力
を紹介できればと思います。

では、今日は③データを分類する力
についてです。

・大量のデータを分析する際は
 いくつかのグループごとに分けて、特徴や施策を考察する
・そして、データをグループ分けする際は
 どういった目的で分類したいかを必ず最初に定めること
(例)国語、社会、数学、理科、体育の成績の個人データがある場合、
 ・文系と理系を分けて選抜コースを提案したい
 →国語と社会、数学と理科で軸を取る
 ・勉強が得意な生徒を見つけたい
 →国語、社会、数学、理科の4教科平均と体育成績で軸を取る

・データを観察して分類する観点を整理するには、ヒートマップが効果的

・散布図でデータを観察する際やグループ化するには
 事前にスケールを合わせることが大切
・そのために「データの標準化」をして
 各指標を同じように扱えるように変換する

・機械学習で分類するときはk-means法を使用することが多い
・k-means法は初期値によって分類結果が変わる
 「k-means法の初期値問題」がある
・そのため、初期値を何度か変えながら試し、
 極端な分類結果になっていないかを確認すること

今回は、データの分類についてです。
具体的な手法としてk-means法なども
登場してきたりと、
いよいよデータサイエンティストっぽさが
増してきました!💻

今回の学びは、
データをグループ分けをする前には
どういった目的で分類したいかを
必ず最初に定めること
ということでした。

手法が使えるようになると
仮説や目的を漠然としたまま
つい手法から始めてしまい、
結局何が言いたかったっけ…?と
時間を浪費してしまうことも多々…

「手を動かす前に頭を使うべし」
ということですね!
(自戒の念を込めて…)


(ここからは本書の内容とは異なります)
さて、データのグループ分けである
クラスタリングの手法の代表として
「k-means法」がありますが、
「x-means法」というのも耳にします。

「k-means法」はグループ分けする
クラスタ数を人間があらかじめ決めて
グループ分けをするのですが、
「x-means法」はそれを自動化して
最適なクラスタ数を導き出してくれる
というもの。

こちらの記事で検証がされていましたが
x-means法は簡易的に計算するならば…
ということで
k-means法の方が推奨されていました。

そんな中、もう少し調べていたら
x-means法とは別にg-means法も
あるようです…!

クラスタリング一つを取っても
データ分析の奥が深い…
x-meansもg-meansも既に
Pythonにライブラリがあるようなので、
こちらも前回の時系列データと同様に
来週に時間をつくって
自分で試してみようと思います。


ということで、今日はこの辺で!
それではまた~!😉✨

いいなと思ったら応援しよう!