特点

(上课没讲)
CLARA 算法(Clustering Large Applications) 是一种距离计算聚类算法。该算法首先获得数据集的多个采样,然后在每个采样上使用K-中心点算法,最后返回最好的聚类结果作为输出。

优点:能够处理大数据集。

缺点

  • 效率依赖于采样的大小;
  • 如果样本发生偏斜,基于样本的一个好的聚类不一定代表得了整个数据集合的一个好的聚类。