二元属性相似性度量

一个二元属性只有两种状态,0 或 1,一个对象可以包含多个二元属性。如何计算两个二元属性之间的相异度?假设:

  • 每个对象有 个属性
  • 是对象 都取 的属性数
  • 是对象 都取 的属性数
  • 是在对象 中取 ,在对象 中取 1 的属性数
  • 是在对象 中取 ,在对象 中取 0 的属性数

显然有 ,则可以做出下面的「可能性矩阵」

- 1 0 sum
1
0 t
sum

二元属性之间分为对称性的和非对称性的。二元属性的两个状态具有同等价值,同等权重时,称为「对称性二元属性」,反之,二元属性的两个状态重要性不同时称为「非对称性二元属性」。比如 HIV 阳性与阴性,两者出现的概率不同,重要性也不同。通常将较重要,出现概率较少的状态编码为 1,另一状态编码为 0.

对于对称性二元属性,我们通常采用简单匹配系数来评价两个对象之间的相异度

对于非对称性二元属性,采用Jaccard 系数来评价两个对象之间的相似度。