データサイエンティストの仮説思考③:データを分類する力(+k-meansの進化版!?、x-meansについて)
読書ノート(128日目)
前回に続いて
今回もこちらの本からです。
この読書ノートでは全5回に分けて
①データを読む力
②データを説明する力
③データを分類する力
④データから法則を見つける力
⑤データから予測する力
を紹介できればと思います。
では、今日は③データを分類する力
についてです。
今回は、データの分類についてです。
具体的な手法としてk-means法なども
登場してきたりと、
いよいよデータサイエンティストっぽさが
増してきました!💻
今回の学びは、
データをグループ分けをする前には
どういった目的で分類したいかを
必ず最初に定めること
ということでした。
手法が使えるようになると
仮説や目的を漠然としたまま
つい手法から始めてしまい、
結局何が言いたかったっけ…?と
時間を浪費してしまうことも多々…
「手を動かす前に頭を使うべし」
ということですね!
(自戒の念を込めて…)
(ここからは本書の内容とは異なります)
さて、データのグループ分けである
クラスタリングの手法の代表として
「k-means法」がありますが、
「x-means法」というのも耳にします。
「k-means法」はグループ分けする
クラスタ数を人間があらかじめ決めて
グループ分けをするのですが、
「x-means法」はそれを自動化して
最適なクラスタ数を導き出してくれる
というもの。
こちらの記事で検証がされていましたが
x-means法は簡易的に計算するならば…
ということで
k-means法の方が推奨されていました。
そんな中、もう少し調べていたら
x-means法とは別にg-means法も
あるようです…!
クラスタリング一つを取っても
データ分析の奥が深い…
x-meansもg-meansも既に
Pythonにライブラリがあるようなので、
こちらも前回の時系列データと同様に
来週に時間をつくって
自分で試してみようと思います。
ということで、今日はこの辺で!
それではまた~!😉✨