クラスタリングとクラス分類問題の違い?
クラスタリングとクラス分類の問題の違いを混同されている方は結構多いのではないでしょうか?
どちらも「物事を分ける」点では同じですが・・・
データセットを構成する個々のレコードは、そのレコードを定義する属性を軸に持つ多次元空間上の1点に対応しています。
クラスタリングとは、その多次元空間に散らばっているデータ群に対して、近傍の点同士(すなわち似たもの同士)のグループあるいはクラスターを定義する作業です。
通常難しいのがクラスター境界の決定の問題で、定義されるクラスターの意味や新たな構造を発見するには、その領域の知識援用が不可欠と言えます。
この抽象的な話をシステムの障害対応で例えれば・・・、
ユーザーからの多数の障害やクレームに対して、事前知識がない状態でまず問題点の切り分けを模索する段階に当たるでしょうか。
一方、クラス分類問題とは、あらかじめ定義された有限個のクラスの中で、判別対象のデータがどのクラスに属するか?を判定する問題です。
言い換えると、分類が未知の属性入力に対して、判別精度を追及する問題です。 画像認識などの分野ではパターン認識問題とも呼ばれています。
企業の人事の例でいえば、組織構造が与えられているとして、従業員の適性に応じてどの部署に配属すべきかを判断する問題と言えるでしょうか。
以上をまとめると、クラスタリングとクラス分類の違いは、前者は識別に有用なグループ(分類構造)を発見する問題であり、後者は与えられた分類に対して、その識別能力を高める問題と言うことができ、それぞれが全く異なる役割を持っていることが分かります。
※弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年以上に渡るプロジェクト経験に基づき、ご支援しています。社内セミナーの企画等、お気軽にご相談いただければ幸いです。