階層的クラスタリングについて知識を深めていこう!空間拡張性などにも触れていく
階層的クラスタリング
デンドログラム(dendrogram)
縦軸:クラスター間距離
横軸:データ
階層的クラスタリングのメリット
上の図のように、誰がどのクラスターに属しているのか詳しく可視化することが可能!
Remark
階層的クラスタリングには2通りある
分割型⇨全体が一つのクラスタになった状態から始めて,再帰的に対象集合の分割を繰り返す。
凝集型⇨バラバラの状態にあり、この時点では全てはたがいに異なるクラスタに属しています。そこから、少しずつ大きなクラスタが形成されていく。
クラスター間の距離はどのように測るのか?
最短距離法
クラスターにデータが2つずつ存在する場合、2点間の距離を測る
その距離が最も近いデータ点の距離をクラスター間距離とする
最長距離法
クラスターにデータが2つずつ存在する場合、2点間の距離を測る
その距離が最も近いデータ点の距離をクラスター間距離とする
重心法
C1とC2のそれぞれの重心を求め、その重心間の距離を重心法という
ウォード法
(a)C1間の重心間距離(ユークリッド距離)とC2間の重心間距離の合計と、
(b)C1とC2を合わせた時の重心間距離の合計
この(b)-(a)を最小にする!
クラスター間距離の性質
空間拡散性
序盤に出たクラスターがどんどん一人勝ちしてしまう様子
最短距離法が一つの例
最長距離法の場合は、逆に鎖状構造が起きづらい
単調性
これまでに結合した時のクラスター間距離<
次に結合する時のクラスター間距離
三平方の定理を学んでおくと理解が深まる!
最短距離法にも大きなメリットが存在する
Hartigan一致性
サンプルサイズが十分大きいとき
dendrogramが確率密度関数の一致推定量となる。
この記事が気に入ったらサポートをしてみませんか?