course:
- 机器学习
CFSFDP 即基于密度峰值的聚类算法,是一种密度聚类。其基本思想为
对第
定义「局部密度」为
参数
定义距离为
由以上公式可知,当第
计算数据集中每个样本点的局部密度和距离,可以得到
聚类过程:聚类中心找到以后,剩余的每个样本被归属到它的有更高密度的最邻近所属类簇,类簇分配只需要一步即可完成,不像其他函数需要对目标函数进行优化
对于图 A 中的情形,无法准确判断聚类中心,可以采用一个将
显然,
根据前面介绍的聚类算法,一些分散的离群点也会被强制分类到类簇当中,造成聚类后类簇边界不清晰,影响聚类效果
为了改进这种情况,将样本点划分为「核心区域」(Cluster Core)和「光环部分」(Cluster Halo),具体划分方法为