ジャッカード係数

ジャッカード係数とは?

ジャッカード係数(Jaccard coefficient)は、集合間の類似度を測るための指標の一つで、二つの集合がどれだけ共通しているかを示します。ジャッカード係数は、0から1までの値を取り、0は二つの集合が全く共通点を持たないことを、1は完全に一致することを意味します。

クラスタリングやレコメンデーションなど機械学習においてさまざまな形で応用される係数です。

$$
J(A,B)= \frac{∣A∩B∣}{∣A∪B∣}
$$

  • $${A}$$ と $${B}$$ は比較する二つの集合

  • $${∣A∩B∣}$$は $${A}$$ と $${B}$$ の共通要素の数

  • $${∣A∪B∣}$$ は $${A}$$ と $${B}$$の合併集合の要素の数

例えば、マリオとルイージがそれぞれステージで集めたアイテムを下記だとします。

  • マリオが集めたアイテム: スーパーキノコ、ファイアフラワー、スーパースター

  • ルイージが集めたアイテム: ファイアフラワー、スーパースター、ヨッシーの卵

共通の要素としては、「ファイアフラワー」「スーパースター」の2つです。合併集合の要素としては「スーパーキノコ」「ファイアフラワー」「スーパースター」「ヨッシーの卵」の4つです。

$$
J(A,B)= \frac{2}{4} = 0.5
$$

マリオとルイージのアイテム収集の類似度は、ジャッカード係数で0.5となります。