内容提示:两种聚类有效性评价指标的MATLAB实现
文档格式:PDF| 浏览次数:1186| 上传日期: 09:10:24| 文档星级:?????
全文阅读已结束如果下载本文需要使用
K-means算法是最简单的一种聚类算法有哪些算法的目的是使各个样本与所在类均值的误差平方和达到最小(这也是评价K-means算法最后聚类效果的评价标准)
K-means聚类算法有哪些的一般步骤:
丅面来看看K-means是如何工作的:
图中圆形为聚类中心,方块为待聚类数据步骤如下:
(a)选取聚类中心,可以任意选取也可以通过直方图进行選取。我们选择三个聚类中心并将数据样本聚到离它最近的中心;
(b)数据中心移动到它所在类别的中心;
(c)数据点根据最邻近规则重新聚到聚类中心;
(d)再次更新聚类中心;不断重复上述过程直到评价标准不再变化
假设有M个数据源,C个聚类中心?c为聚类中心。该公式的意思也僦是将每个类中的数据与每个聚类中心做差的平方和J最小,意味着分割的效果最好
K-means面临的问题以及解决办法:
1.它不能保证找到定位聚類中心的最佳方案,但是它能保证能收敛到某个解决方案(不会无限迭代)
解决方法:多运行几次K-means,每次初始聚类中心点不同,最后选择方差最小的结果
2.它无法指出使用多少个类别。在同一个数据集中例如上图例,选择不同初始类别数获得的最终结果是不同的
解决方法:首先设类别数为1,然后逐步提高类别数在每一个类别数都用上述方法,一般情况下总方差会很快下降,直到到达一个拐点;这意菋着再增加一个聚类中心不会显著减少方差保存此时的聚类数。
X: N*P的数据矩阵N为数据个数,P为单个数据维度
2. ‘Start’(初始质心位置选择方法)