在实际中,数据集中数据的描述属性通常不只一种类型,而是各种类型的混合体。- 对于包含混合类型属性的数据集,如何计算样本之间的相似性?
可以将混合类型属性放在一起处理。假设给定的数据集为
对样本的属性值进行预处理:
预处理之后,样本中只包含连续型属性和二值离散型属性。
给定两个样本 和 它们之间的距离为
其中 表示 和 在第 个属性上的距离, 表示第 个属性对计算 和 距离的影响。
当第 个属性为连续型时,使用Manhattan 距离进行计算
当第 个属性为二值离散型时,如果 ,则 ,否则
表示第 个属性对计算 和 距离的影响。