相似性度量

二元属性相似性度量中,给定可能性矩阵后,如果样本的属性都是不对称的二值离散型属性,则样本间的距离可用Jaccard系数计算(Jaccard Coefficients, JC):

其中:不对称的二值离散型属性是指属性取值为 1 或者 0 不是同等重要。例如:血液的检查结果是不对称的二值离散型属性,阳性结果的重要程度高于阴性结果,因此通常用 1 来表示阳性结果,而用 0 来表示阴性结果。

显然,上述性能度量指标结果均在 之间,值越大越好。

聚类

聚类中,对于数据集 ,假定通过聚类给出的簇划分为 ,参考模型给出的簇划分为 ,相应地,令 分别表示与 对应的簇标记向量。

我们将样本两两配对,定义:

  • ,集合 包含了在 中隶属于相同簇,且在 也隶属相同簇的样本对。
  • ,集合 包含了在 中隶属于相同簇,但在 隶属不同簇的样本对。
  • ,集合 包含了在 中隶属于不同簇,但在 隶属相同簇的样本对。
  • ,集合 包含了在 中隶属于不同簇,且在 也隶属不同簇的样本对。

由于每个样本对 仅能出现在一个集合中,因此有

则定义「Jaccard 系数」为

显然 Jaccard 系数在 之间,越大表示聚类性能越好