改进KH算法
2016-11-18 10:09:55 0 举报
改进的KH算法是一种基于贪婪策略的聚类方法,它通过不断迭代来优化聚类结果。在每次迭代中,算法首先选择一个初始点作为种子点,然后根据距离度量函数计算每个数据点到种子点的距离,并将距离最近的点添加到同一个簇中。接下来,算法会更新每个簇的中心点,并重新计算每个数据点到新中心点的距离。这个过程会一直重复,直到满足停止条件为止。 相比于原始的KH算法,改进后的KH算法具有更高的效率和更好的聚类效果。它能够有效地处理大规模数据集,并且能够在不同尺度上进行聚类。此外,改进后的KH算法还具有较好的鲁棒性,能够应对噪声和离群点的影响。
作者其他创作
大纲/内容
普遍权重计算方式(TD_IDF)
改进的KH算法
基于Harmony搜索算法
生成新的文本选择的子集
降维度技术
基于文档频次(DF)减少文本的维空间
粒子群优化(PSO)算法特征选择
文本表示
使用K-means测试
筛选后更可用的特性子集
待处理数据集
优化的权重计算方式(LWF)
第二阶段
基于每个特征的详细词频(DTF)和详细文档频率(DDF)的特征DR技术减少文本的维空间
遗传算法中的文本特征选择问题
词干还原(Stemming)
计算词条权重
求解的最优子集的优化
利用磷虾群(KH)算法
结合KH算法和K-means算法
得到聚类结果
文本聚类问题建模
数据集
分词Tokenization
第一阶段
停用词消除Removal stop words
0 条评论
下一页