基于Spark的K-means算法实现流程
2017-04-17 23:25:23 0 举报
基于Spark的K-means算法实现流程如下:首先,初始化K个中心点;然后,将数据划分为K个簇,每个数据点分配到最近的中心点所在的簇;接着,计算每个簇内数据点的均值,更新中心点位置;重复上述步骤,直到中心点不再发生变化或达到最大迭代次数。最后,返回K个簇及其对应的中心点。
作者其他创作
大纲/内容
No
开始
Reduce全局聚类并更新聚类中心
结束
输出聚类结果
将数据对象Map到最相似的类簇中心
读取数据集并创建RDD
聚类是否收敛?
Yes
数据对象向量化并Cache入缓存
随机选取K个初始聚类中心
0 条评论
回复 删除
下一页