Rand 指数

聚类中,对于数据集 ,假定通过聚类给出的簇划分为 ,参考模型给出的簇划分为 ,相应地,令 分别表示与 对应的簇标记向量。

我们将样本两两配对,定义:

  • ,集合 包含了在 中隶属于相同簇,且在 也隶属相同簇的样本对。
  • ,集合 包含了在 中隶属于相同簇,但在 隶属不同簇的样本对。
  • ,集合 包含了在 中隶属于不同簇,但在 隶属相同簇的样本对。
  • ,集合 包含了在 中隶属于不同簇,且在 也隶属不同簇的样本对。

由于每个样本对 仅能出现在一个集合中,因此有

则定义「Rand 指数」为

显然 Rand 指数值在 之间,越大表示聚类性能越好