基于相似运算、聚类运算和SVM的数据特征分类算法
2016-05-11 09:14:39 0 举报
AI智能生成
数据特征分类
作者其他创作
大纲/内容
相似运算
欧式距离
定义
指在二维空间里,两个点间直线的距离
作用
一般用于比较在同一维度下,两样本数据特征的相似程度
方法
一般采用样本数据为维度,以样本个体为主体,计算两主体的相似程度
皮尔逊相关系数
作用
一般用于在高维度中比较两个样本数据的相似程度
方法
一般以计算主体为维度,以样本数据为相似度比较量,用以比较样本的相似程度。
特点
允许存在“夸张分度”存在,以发现具有相似偏好的数据特征。
曼哈顿距离
方法
其概念与欧式距离相似,但其运算并非采用两点间的直线距离,而是将空间分为等距网孔后的网孔格边界距离
作用
可以有效的减少浮点运算,加快运算速度
应用
欧式距离计算两样本的相似度,诸如根据用户对于不同电影的评价寻找具有相似喜好的用户,再做出电影推荐
皮尔逊相关系数的计算则是基于不同用户对于多部电影的评分趋势,寻找具有相似兴趣偏好的用户,并做出电影推荐
聚类运算
K-均值聚类
定义
又称KNN算法,即K最邻近算法。其主要思想是对于分类数据集
方法
对于分类数据集,随机产生分类数据中点,再将周围的数据点分于数据中点,计算这一类的数据点的平均位置,移动至平均位置,再次计算与移动,直到不再产生变化
Fisher聚类
指在分类运算中,对于每一分类特征分别计算属于某一分类的概率,再以各特征的分类概率计算样本数据的分类
贝叶斯分类算法
见以前文章
SVM
特点
最为著名和有效的分类算法。在确定合适的Hyper Plain之后,其可以完成以上任一种运算的功能,甚至做的更好。
是一个监督学习模型,通常用于模式识别、分类与回归
核心思想——核方法
将复杂数据投影到高维空间,然后在高维空间寻找对分类点形成最大间隔平面的分类
常用的核函数
⑴线性核函数K(x,y)=x·y;
⑵多项式核函数K(x,y)=[(x·y)+1]^d;
⑶径向基函数K(x,y)=exp(-|x-y|^2/d^2)
⑷二层神经网络核函数K(x,y)=tanh(a(x·y)+b)
基本模型
为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化
0 条评论
下一页