机器学习-周志华
2017-09-07 14:33:28 102 举报
AI智能生成
周志华
作者其他创作
大纲/内容
1、绪论
学习算法
数据产生模型
数据集
样本
属性
特征
属性值
属性空间
特征向量
假设空间
归纳
特殊到一般
演绎
一般到特殊
2、模型评估与选择
经验误差与过拟合
错误率
分类错误的样本数占样本总数的比例
E=a/m,m个样本中a个样本分类错误
精度
1-E
1 - 错误率
误差
实际预测输出与样本真实输出间的差异
训练误差
训练集上的误差
泛化误差
新样本上的误差
目的:最小化泛化误差
过拟合
泛化性能下降,把训练样本自身的一些特点当做所有潜在样本都具有的一般性质
更难避免
欠拟合
对训练样本的一般性质尚未学好
模型选择
评估泛化误差,选最小的
评估方法
测试集应尽可能与训练集互斥
留出法
数据集
D数据集
S训练集
T测试集
D=S并T
S交T=空集
训练/测试集划分要尽可能保持数据分布一致性
避免额外划分导致的偏差
尽量保持样本类别比例相似
分层采样
保留类别比例的采样方式
多次使用留出法
若干次随机划分
重复进行实验评估取平均值
交叉验证法
性能度量
度量泛化
均方误差
错误率+精度=1
分类结果混淆矩阵
真正例TP
真正例FP
假反例FN
真反例TN
样例总数=TP+FP+FN+TN
查准率/准确率
P=TP/(TP+FP)
R=TP/(TP+FN)
ROC与AUC
子主题
比较检验
假设检验
交叉验证t检验
McNemar检验
Friedman检验与Nemenyi检验
偏差与方差
偏差-方差分解
用于解释学习算法泛化性能
泛化误差=偏差+方差+噪声
偏差
学习算法的期望预测与真实结果的偏离程度
方差
同样大小训练集变动所导致学习性能的变化
3、线性模型
基本形式
f(x) = wx + b
w为向量
很多非线性模型是在线性模型基础上通过引入层级结构或高级映射
线性回归
度量
均方误差
最小化
最小二乘法
均方误差最小化来进行模型求解
试图找到一条曲线,使所有样本到直线上的欧式距离之和最小
多元线性回归
y = wx +b
对数线性回归
lny = wx + b
广义线性模型
g(y)=wx+b
对数几率回归
二分类
单位阶跃函数
对数几率函数
线性判别分析
LDA
给定训练样例集,设法将案例投影到一条直线上,使同类案例尽可能接近,异类案例尽可能远离
对新样本分类时,将其投影到这条直线上,根据直线上的位置进行分类
多分类学习
拆解法
多分类拆分为多个二分类
拆分策略
一对一
N个类别两两配对
N(N-1)/2
一对多
一个类别作为正例,其它作为反例
多对多
若干正例,若干反例
拆分需要特殊构造
纠错输出码
将编码思想引入类别拆分
类别不平衡问题
再缩放
4、决策树
基本流程
根节点全集,叶节点属性
分而治之
目的产生一颗泛化能力强,即处理未见示例能力强的决策树
划分选择
关键在于选择最优划分属性
节点纯度越来越高
决策树分支节点所包含的样本尽可能属于同一类别
信息增益
信息熵
度量样本集合纯度的指标
信息熵定义
当前样本集合D中第k类样本所占有的比例为pk
Ent(D)值越低,纯度越高
信息增益定义
用属性a对样本集D进行划分所获得的信息增益
值越大,使用a进行划分所获得纯度提升越大
选信息增益大的属性作为节点
增益率
信息增益准则对可取值数目较多的属性有所偏好
使用增益率来选择最优划分属性
增益率对可取数目较少的属性有所偏好
先从候选划分属性中寻找信息增益高于平均水平的属性,再从中选择增益率最高的
基尼指数
CART
classification and regression tree
选择划分属性
度量数据集的纯度
从数据集随机抽2个样本,其类别标记不一致的概率
值越小,纯度越高
选择那个使得划分后基尼指数最小的属性作为最优划分属性
剪枝处理
对付过拟合
预剪枝
决策树生成过程中,对每个节点在划分前先进行估计
导致欠拟合
后续划分可能导致性能显著提升
后剪枝
先从数据集生成一颗完整的决策树,然后自底往上对非叶节点进行考察
比预剪枝保留了更多节点
训练时间开销大
留出法
预留一部分数据作验证集进行性能评估
连续与缺失值
连续值处理
连续属性离散化
二分法
缺失值处理
让同一样本以不同概率划入到不同的子节点
多变量决策树
倾斜的边界划分
5、神经网络
神经元模型
激活函数
阶跃函数
Sigmoid函数
感知机与多层网络
感知机
输入层接收外界输入信号
输出层M-P神经元
阈值逻辑单元
多层前馈神经网络
输入层
隐层
输出层
误差逆传播算法
BackPropagation
BP网络
使用BP算法训练的多层前馈神经网络
梯度下降
误差函数
全局最小
局部最小
梯度为0
最小点
我们的目的是全局最小,在寻找过程中会遇到局部最小
跳出局部最小的方法
使用多组不同的参数值初始化,选误差函数最小的解作为最终参数
模拟退火
在每一步都以一定概率接受比当前概率更差的结果
接受次优解的概率要慢慢减小,以保证算法稳定
随机梯度下降
即使陷入局部最小点,其梯度也可能不为0
6、支持向量机
间隔与支持向量
SVM
Support Vector Machines
划分超平面
支持向量
间隔
直线与两类最近点之间的距离
最大化间隔
对偶问题
子主题
核函数
将样本从原始空间映射到更高维度的特征空间
使线性可分
软间隔和正则化
允许支持向量机在一些样本上出错
支持向量回归
C
控制光滑交界和正确分类的折衷
越小越平滑
gamma
linear越小,越直
过拟合
过于曲折
优点
明显分界表现良好
缺点
大量数据表现不好
速度慢
噪声多表现不好
过拟合
类严重重叠,要考虑独立证据
7、贝叶斯分类器
概率
贝叶斯决策论
极大似然估计
朴素贝叶斯分类器
半朴素贝叶斯分类器
贝叶斯网
EM算法
优点特征空间大
适合文本分类
每个单词一个特征
缺点词之间间隔
8、集成学习
多分类器系统
构建并结合多个学习器来完成学习任务
集成
同质集成
个体学习器是同种类型
异质集成
个体学习器是不同类型
弱学习器
泛化性能略优于随机猜测的学习器
准确性+多样性
冲突
根据个体学习器的生成方法分成2类
个体学习器间存在强依赖关系,必须串行生成序列化方法
Boosting
个体学习器间不存在强依赖关系,可同时生成并行化方法
Bagging
Random Forest
Boosting
将弱学习器提升为强学习器的算法
先从初始训练集训练出一个基学习器
根据基学习器的表现对训练样本分布进行调整
使先前基学习器做错的训练样本受到更多关注
重赋权法
基学习器不满足则停止
重采样法
基学习器不满足则重启
根据调整后的样本分布训练下一个基学习器
重复进行至基学习器数目达到指定值
加权结合所有基学习器
降低偏差
基于泛化性能弱的学习器构建出很强的集成
标准只适用二分类
Bagging
自助采样法
给定包含m个样本的数据集,先随机取出一个放入采样集,再放回初始数据集,经过m次随机采样操作,得到含m个样本的采样集
自助采样T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合
降低方差
在决策树,神经网络等易受样本扰动的学习器上效用更明显
多分类,回归
Random Forest
随机森林
Bagging的一个扩展变体
在决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入随机属性选择
传统决策树在选择划分属性时是在当前节点的属性集合中选择一个最优属性
RF,基决策树每个节点,先从该节点属性集合中随机选一个包含k个属性的子集,然后从子集选择最优属性用于划分
Bagging多样性只来自样本扰动,RF来自样本和自属性扰动
RF基学习器少,性能低,随着基学习器数目增加,收敛到更低泛化误差
结合策略
数值型
平均法
简单平均
个体学习器性能接近
加权平均
个体学习器性能差异较大
投票法
绝对多数投票法
加权投票法
学习法
使用学习器进行结合
多样性
误差-分歧分解
多样性度量
k-统计量
k越大,多样性越小
k-误差图
多样性增强
数据样本扰动
采样法
输入属性扰动
输出表示扰动
算法参数扰动
9、聚类
k-means
分配
优化
聚类性能度量
簇内相似度高,簇间相似度低
外部指标
将聚类结果与某个参考模型对比
内部指标
直接考察聚类结果
原型聚类
密度聚类
层次聚类
10、降维与度量学习
k近邻
懒惰学习
低维嵌入
降维
PCA
主成成分分析
最近重构性
最大可分性
坐标系转换
特征选择与稀疏学习
子集搜索与评价
相关特征
对学习任务有用的属性
无关特征
特征选择
从给定特征集合中选择出相关特征子集的过程
降低维度
降低学习难度
冗余特征
遍历所有子集,不可取,会产生组合爆炸
选取候选子集,评价好坏,再循环选取,评价
子集搜索
前向
后向
双向
子集评价
子集信息增益
信息增益越大,含有的有助于分类的信息越多
子集信息熵
特征子集对应数据集划分,样本信息对应数据集的真实划分
通过这两个划分的差异,评估子集
过滤式选择
Relief
二分类
Relief-F
多分类
包裹式选择
把最终要选择的学习器性能作为特征子集的选择标准
LVW
拉斯维加斯方法框架下随机策略搜索子集
性能上比过滤式好,但每次评价需要训练学习器,代价大
嵌入式选择
将特征选择和学习器训练融为一起
学习器训练过程中自动进行了特征选择
举例-线性
以平方误差为损失函数
当特征多,样本少,易过拟合
引入正则化项,缓解过拟合
岭回归
稀疏表示与字典学习
子主题
压缩感知
利用信号本身稀疏性,从部分观测属性中恢复原信号
分支主题
TDD
Test Driven Development
测试驱动开发
风险
数据的不稳定性
离群点最少化
接缝测试
欠拟合
样本太少
交叉验证检验拟合
将数据分为训练集和特征集
过拟合
记忆
基准测试
奥卡姆剃刀准则
追求数据建模的简单性
未来的不可预测性
随着时间的推移追踪精度和查全率
概述
有监督学习
将数据拟合为某个函数或函数逼近
无监督学习
在无反馈条件下对数据进行推断
强化学习
进行有奖励和回报的比赛或游戏
核岭回归
协同过滤
子主题
回归
均方误差最小化
模型改进与数据提取
维数灾难
特征选择
随机特征选择
随机降维
特征变换
PCA
Principle Component Analysis
主分量分析
方差最大的方向
第一主分量
子主题
ICA
Independent Component Analysis
独立分量分析
最小化互信息/两个变量之间共享的信息
从混合信号中找到存在差异的信号
监测机器学习算法
精度
准确率
查全率
混淆矩阵
均方误差
预测结果为连续值
算法
0 条评论
下一页