聚类

数据点相似性和相异性是聚类、分类、离群点分析等数据挖掘算法的基础。

两个数据对象之间的相似程度称为「相似性」,值越大代表两个对象越相似;两个数据对象之间的差别称为「相异性」。值越小代表两个对象越相似。相似性或相异性都称为「邻近性」(Proximity)。各个数据之间的相异性可以构成一个相异性矩阵

在聚类分析中,样本之间的相似性通常采用样本之间的距离度量来表示。