aliases:
- k-means
course:
- 数据挖掘
- 机器学习
(机器学习课堂作业中出现过)
把
最小均方误差在一定程度上刻画了簇内样本围绕簇均值当紧密程度。误差平方和达到最优(小)时,可以使各聚类的类内尽可能紧凑,而使各聚类之间尽可能分开。对于同一个数据集,由于k-means 算法对初始选取的聚类中心敏感,因此可用该准则评价聚类结果的优劣。通常,对于任意一个数据集,k-means 算法无法达到全局最优,只能达到局部最优。
输入:样本集
输出:
过程:
不足:
假设现在有六个点
解:
第一次迭代,先分别考察各点距离哪一个中心最近
距离矩阵 | ||||||
---|---|---|---|---|---|---|
0 | 1 | 1 | ||||
1 | 0 | 5 | ||||
聚类归属 | 1 | 1 | 2 | 2 | 2 | 2 |
因此第一次迭代聚类结果为
距离矩阵 | ||||||
---|---|---|---|---|---|---|
0.5 | 0.5 | |||||
聚类归属 | 1 | 1 | 1 | 2 | 2 | 2 |
因此第一次迭代聚类结果为
第三次迭代,先分别考察各点距离哪一个中心最近
距离矩阵 | ||||||
---|---|---|---|---|---|---|
聚类归属 | 1 | 1 | 1 | 2 | 2 | 2 |
因此第一次迭代聚类结果为
假设现在有 8 个点
解:
可以采用误差平方和进行评价