見出し画像

データサイエンティストの頭の中vol.14~機械学習(教師なし学習)のクラスタリングについて~

今回は機械学習の中の教師なし学習の一つクラスタリングについてインタビューしました。「クラスタリングってそもそも何?」「何のために使うの?」「どうやって使うの?」的な疑問に答えもらいました!!
難しい機械学習をより簡単に伝えることを心掛けました!

初学者でもわかるようにインタビューで話しましたので、是非動画もチェックしてみてください!!より詳しく話しています!

1 クラスタリングとは何か

「教師なし学習の一つで、簡単に言うと似ているグループ、セグメントをグルーピングしていくアルゴリズム、手法の一つ」とのこと。
特徴量のパターンが似ているところを読み解いてグループ化してくれるものらしいです。。
何かを分けたい、グループ化したい、というときに使っていくアプローチの一つという認識で問題ないそうです!!

2 どういうときに使うのか

じゃあ実際はどういうときに使うのか、、、??

ややわかりづらいので、例を出すと、
ECサイトで20%オフキャンペーンをやるときに反応が良いところのみクーポン的なのを付与して予算を削減しながら売上UPで効果を出していきたい!みたいなとき、、、、
顧客をグループ化してどのグループが効果高いのかを判別するために使ったりするそうです。
このとき、グループ化していくときに年齢や性別とかわかりやすいものを使って分けていくものももちろんあります。(これはクラスタリングではない。)
ただそういう分け方は解釈性は高いですが、なかなかうまく分けられないのが現実で、クラスタリングというアルゴリズムを用いて様々なデータの特徴量から分けていく方が綺麗に分けられたりします。
データは莫大な量があったり様々なものがあったりするので一筋縄にいかないことが多いとのことでだからこそ、機械学習のアルゴリズムを用いてうまくやっていくことが多いみたいです。。。
なかなか難しい世界ですね、、、(笑)

3 良い/悪い クラスタリング

まあその中でクラスタリングも良いクラスタリング、悪いクラスタリングと分かれるようで、何をもって分かれるのか、どういうとき良いのか、悪いのか、、、、。

例えば上記の例で言うと、全体平均が10%の反応率だったとすると、クラスタリングで分けたクラスター1,2,3,4があったとして1が反応率40%、2は5%、3,4は10%だとしたら、良いクラスタリングなっていて1は絶対送るべき、2は絶対送らない、3,4は時と場合によるみたいな形で分けられるので良い・綺麗なクラスタリング、となるらしいです。

逆に、全部1,2,3,4、が12%、15%、10%、13%とかであればこれはほぼ全体平均と変わらないから悪いクラスタリング、となるわけです。

イメージはいかに綺麗に分かれるかを試していく感じです!
特徴量を使い分けしながらクラスタリングを繰り返していくらしいです。

クラスタリングは分けたあと解釈を考える、原因を探っていくことがあるので、解釈性を重要視するかどうかでまた良いクラスタリングと悪いクラスタリングで分かれるみたいです。
というのは、綺麗に分かれているけれど解釈が全くできないクラスタリングは悪いクラスタリングになってしまったりするそうです。。
面白いけどややこしいです。(笑)

あとは過去のデータからクラスタリングでグループ分けをしておけば、新しいデータが入ってきたときに自動でグループ化できるようにもなるらしいです。マーケとかの領域とはかなり相性が良い技術かもしれません。。。

今回は技術的な部分でしたが誰にでもわかりやすくを心掛けましたので細かい技術の部分は省きましたー
またこういった技術的な部分の話も増やしていこうと考えています!

■■■「データサイエンティスト」と「データサイエンティストになりたい人」、「データサイエンスを勉強したい人」のためのオンラインサロン
を開設しました!!■■■


この記事が気に入ったらサポートをしてみませんか?