ジャッカード係数
ジャッカード係数とは?
ジャッカード係数(Jaccard coefficient)は、集合間の類似度を測るための指標の一つで、二つの集合がどれだけ共通しているかを示します。ジャッカード係数は、0から1までの値を取り、0は二つの集合が全く共通点を持たないことを、1は完全に一致することを意味します。
クラスタリングやレコメンデーションなど機械学習においてさまざまな形で応用される係数です。
$$
J(A,B)= \frac{∣A∩B∣}{∣A∪B∣}
$$
$${A}$$ と $${B}$$ は比較する二つの集合
$${∣A∩B∣}$$は $${A}$$ と $${B}$$ の共通要素の数
$${∣A∪B∣}$$ は $${A}$$ と $${B}$$の合併集合の要素の数
例えば、マリオとルイージがそれぞれステージで集めたアイテムを下記だとします。
マリオが集めたアイテム: スーパーキノコ、ファイアフラワー、スーパースター
ルイージが集めたアイテム: ファイアフラワー、スーパースター、ヨッシーの卵
共通の要素としては、「ファイアフラワー」「スーパースター」の2つです。合併集合の要素としては、「スーパーキノコ」「ファイアフラワー」「スーパースター」「ヨッシーの卵」の4つです。
$$
J(A,B)= \frac{2}{4} = 0.5
$$
マリオとルイージのアイテム収集の類似度は、ジャッカード係数で0.5となります。