クラスタリングのはなし
Introduction
このノートでは多変量解析やデータマイニングを知りたい人に向けて、クラスタリングという手法を紹介するシリーズの1記事目です。今回はクラスタリングの入門的な話について導入します。
1. クラスタリングとは
説明変数のみを持つデータをもとに、何らかの意味で類似しているデータポイントを1つのクラスターとしてまとめあげる手法があります。この手法の一連をクラスタリングと言います。 出来上がったクラスターには
・同じクラスターにまとまったデータポイントは類似している。
・異なるクラスターにまとまったデータポイントは類似していない。
という2つの性質が満たされていることが望ましいと考えられています。以下に、クラスターのイメージを載せておきましょう。
2. クラスタリングの種類
クラスタリングには大きく分けて、分割最適型クラスタリングと階層型クラスタリングがあります。分割最適型クラスタリングは、事前にクラスタの良さを測る関数を準備しておいて、その関数の値を最小化するようなクラスタリングを求める手法です。一方で、階層型クラスタリングはクラスタを分割したり併合したりすることによってクラスタを階層的に構築する手法です。
また階層型クラスタリングには、さらに凝集型と分割型があります。凝集型はデータポイント1つ1つをクラスターと考えた状態から始め、類似しているクラスターを逐次的に凝集していく手法です。分割型はデータポイント全体で1つのクラスターと考えた状態から始め、類似していないデータポイント群を逐次的に分割していく手法です。
次回の話
今後、クラスタリングの代表的な手法について簡単な紹介をしようと思います。分割最適型クラスタリングからはk-means法を、階層型クラスタリングからは特に凝集型に分類される最短距離法(単リンク法)と最小分散法(Ward法)を紹介します。(今回は分割型の階層型クラスタリングについては紹介しません。)お楽しみに。
いいなと思ったら応援しよう!
サポートをいただいた場合、新たに記事を書く際に勉強する書籍や筆記用具などを買うお金に使おうと思いますm(_ _)m