在二元属性相似性度量中,给定可能性矩阵后,如果样本的属性都是不对称的二值离散型属性,则样本间的距离可用Jaccard系数计算(Jaccard Coefficients, JC):
其中:不对称的二值离散型属性是指属性取值为 1 或者 0 不是同等重要。例如:血液的检查结果是不对称的二值离散型属性,阳性结果的重要程度高于阴性结果,因此通常用 1 来表示阳性结果,而用 0 来表示阴性结果。
显然,上述性能度量指标结果均在 之间,值越大越好。
在聚类中,对于数据集 ,假定通过聚类给出的簇划分为 ,参考模型给出的簇划分为 ,相应地,令 与 分别表示与 和 对应的簇标记向量。
我们将样本两两配对,定义:
由于每个样本对 仅能出现在一个集合中,因此有
则定义「Jaccard 系数」为
显然 Jaccard 系数在 之间,越大表示聚类性能越好