数据点相似性和相异性是聚类、分类、离群点分析等数据挖掘算法的基础。
两个数据对象之间的相似程度称为「相似性」,值越大代表两个对象越相似;两个数据对象之间的差别称为「相异性」。值越小代表两个对象越相似。相似性或相异性都称为「邻近性」(Proximity)。各个数据之间的相异性可以构成一个相异性矩阵
在聚类分析中,样本之间的相似性通常采用样本之间的距离度量来表示。
两个样本之间的距离越大,表示两个样本越不相似性,差异性越大;
两个样本之间的距离越小,表示两个样本越相似性,差异性越小。
特例:当两个样本之间的距离为零时,表示两个样本完全一样,无差异。
标称属性相似性度量
二元属性相似性度量
数值属性相似性度量
序数属性相似性度量
向量对象相似性度量
混合类型属性相似性度量