見出し画像

クラスタリングについて

今回はクラスタリングという
教師なし学習に分類される手法についてアウトプットしていきます

今回も、内容についてはデータ領域に入りたてで、Pythonや機械学習に興味を持ち始めた、そんな方にむけて、私が感じたことや解釈を記載していく形式にします。

もくじ
・教師あり学習・教師なし学習
・クラスタリング
・まとめ

~教師あり学習・教師なし学習~

機械学習の学習手法には
教師あり学習と教師なし学習という区分が存在します

教師あり学習とは、事前に人間が用意した正解データをもとに学習させる方法のことです。
これまでの記事で記載してきた、ランダムフォレストやブースティングの手法は教師あり学習に分類されます。

例えばこのようなデータがあったとして、

以下のような人(Aさん)の体重を予測すると考える場合は、
予測したい項目(体重)が入っていないAさんの数値を、
項目(体重)が入っている、上記のたくさんのデータを用いて予測することになります。

Aさん
 性別:男性
 年齢:28歳
 身長:180cm
 運動歴:20年
 職業:営業

 体重:”○○”

この場合、体重のデータが入っている、つまり正解のデータがある状況から正解のデータが無いデータを予測することが、教師あり学習ということになります。

一方、教師なし学習とはその逆で、
正解のデータが無い状況から、学習を行うことになります。

そのため、持っているデータには存在しない未知の結果を算出することができ、その一つがクラスタリング(分類)です。

~クラスタリング~

クラスタリングとは、クラスターから来ている言葉であり、
このクラスターという言葉は、コロナウイルスの影響もあり、『クラスターが発生し、集団感染した』とニュースで流れているように、ある程度イメージが出来る方も多いかもしれません。

クラスターとは、"集団"・"群れ"という意味です。

コロナウイルスの場合は、感染者が一人いると、その人の周りや属する集団が一気に感染するというような事例が多発しました。

今回記載していく、機械学習手法:クラスタリングではこの”集団”を、たくさんのデータから学習し、作成していくイメージです。

例えば、
ある高校で、2年生全生徒のテスト結果が
国語、古典、数学、英語、理科、地理、歴史・・・など全科目が以下のようにデータ化されていたとします。

Aさん、国語:66点・数学:70点・英語:67点・理科:・・・
Bさん、国語:88点・数学:60点・英語:77点・理科:・・・
Cさん、国語:72点・数学:69点・英語:88点・理科:・・・

このようなデータがあった場合、
クラスタリングを行えば、
①国語、古典、地理、歴史が得意な生徒が多い集団
②数学、理科が得意な生徒が多い集団
③全科目バランスよく得意な生徒が多い集団

というような集団を機械的に分類することが出来ます。

上記のように3つに分類することが出来れば
文系に進むのがおすすめな生徒
理系に進むのがおすすめな生徒
のように、
そもそも、テストの点数というデータしか無い状況から
新たなパターンを算出することが出来ます。
この考え方が、教師なし学習のクラスタリングです

~まとめ~

今回は機械学習でできるクラスタリングについてのイメージを記載してきました。
記事内では、大枠のみ記載しましたが、クラスタリングはもっと奥が深く面白い手法です。
非階層型や階層型という様々な分類方法があったり、機械的にどのように分類をするのかという、ロジックの部分はすべてのデータの分散が最小になる点を算出してそこからの距離でグループ分けするといった、なるほど!思える過程があります。

実際には、何かマーケティング活動の一環として、これから発信する施策を対象とするユーザーの選定に使用したり、活用の幅は様々です。

データさえあれば、このように、いま、見えていないパターンや分類を可視化することができ、新しい施策や考え方に繋がるので、是非試してみてください!






この記事が気に入ったらサポートをしてみませんか?