密度聚类

「密度聚类」亦称为「聚于密度的聚类」(Density-Based Clustering),此类算法假设聚类结构能通过样本的紧密/稠密程度确定。

密度聚类算法样本密度的角度来考察样本之间的可连接性,只要一个区域中的点的密度大于某个阈值,就把它加到与之相近的聚类中,从而基于可连接样本不断扩展来进行聚类以获得最终的聚类结果

这类算法能克服基于距离的算法只能发现类圆形的聚类的缺点,可发现任意形状的聚类,且对噪声数据不敏感。但计算密度单元的计算复杂度大,需要建立空间索引来降低计算量,且对数据维数的伸缩性较差。

特点

优点

  • 可发现任意形状的分簇
  • 对噪声数据不敏感

缺点

  • 计算密度单元的计算复杂度大,需要建立空间索引来降低计算量;

  • 对数据维数的伸缩性较差;

  • 需要扫描整个数据库。

  • DBSCAN

  • CFSFDP 算法