算法

(上课没讲)
「CURE 算法」 (Clustering Using representatives) 是一种多阶段聚类算法。

很多聚类算法只能处理球形或相似大小的聚类,有些聚类算法对孤立点比较敏感。CURE 算法能够处理非球形聚类问题,并且对孤立点不敏感。CURE 算法采用随机取样和划分两种方法的组合。

  • 从源数据集中抽取一个随机样本。
  • 为了加速聚类,把样本划分成p份,每份大小相等。
  • 对每个划分局部地聚类。
  • 根据局部聚类结果,对随机取样进行孤立点剔除。主要有两种措施:如果一个簇增长得太慢,就去掉它。在聚类结束的时候,非常小的类被剔除。
  • 对上一步中产生的局部的簇进一步聚类。落在每个新形成的簇中的代表点根据用户定义的一个收缩因子 收缩或向簇中心移动。这些点代表和捕捉到了簇的形状。
  • 用相应的簇标签来标记数据。