一个二元属性只有两种状态,0 或 1,一个对象可以包含多个二元属性。如何计算两个二元属性之间的相异度?假设:
显然有
- | 1 | 0 | sum |
---|---|---|---|
1 | |||
0 | t | ||
sum |
二元属性之间分为对称性的和非对称性的。二元属性的两个状态具有同等价值,同等权重时,称为「对称性二元属性」,反之,二元属性的两个状态重要性不同时称为「非对称性二元属性」。比如 HIV 阳性与阴性,两者出现的概率不同,重要性也不同。通常将较重要,出现概率较少的状态编码为 1,另一状态编码为 0.
对于对称性二元属性,我们通常采用简单匹配系数来评价两个对象之间的相异度
对于非对称性二元属性,采用Jaccard 系数来评价两个对象之间的相似度。