方法

在实际中,数据集中数据的描述属性通常不只一种类型,而是各种类型的混合体。- 对于包含混合类型属性的数据集,如何计算样本之间的相似性?

可以将混合类型属性放在一起处理。假设给定的数据集为

预处理

对样本的属性值进行预处理:

  • 连续型属性,将其各种取值进行规范化处理,使得属性值规范化到区间
  • 多值离散型属性,根据属性的每种取值将其转换成多个二值离散型属性。

预处理之后,样本中只包含连续型属性和二值离散型属性。

距离度量

给定两个样本 它们之间的距离为

其中 表示 在第 个属性上的距离, 表示第 个属性对计算 距离的影响。

连续属性

当第 个属性为连续型时,使用Manhattan 距离进行计算

二元属性

当第 个属性为二值离散型时,如果 ,则 ,否则

权重选择

表示第 个属性对计算 距离的影响。

  • 如果 缺失,则
  • 如果 ,且第 个属性是不对称的二元属性,则
  • 除了这两种情况外,