scikit-learn機械学習㉛DBSCANクラスタリング
前回は、scikit-learnを使って、k-meansの実験を行いました。k-meansは単純明快で計算量も比較的少ない便利なアルゴリズムです。簡単な例では良い結果を出していました。
しかし、k-meansにもいくつか難点があります。例えば、クラスタ数$${k}$$を指定する必要があったり、境界の形状や外れ値などによってはクラスタリングの結果が悪くなる弱点があります。
そこで今回扱うのは、DBSCANです。クラスタリングの一種ですが、クラスタ数を指定する必要がありません。また、k-meansが不得意とする以下のような形状のクラスタリングも可能です。
さらにDBSCANは外れ値も自動的に除外できるという特徴があります。
なお、DBSCANという名前は「Density-Based Spatial Clustering of Applications with Noise」の略です。まあ、こじ付けのような名前ではありますが、それなりに意味が込められています。
この記事が気に入ったらチップで応援してみませんか?