机器学习
2023-04-27 21:00:12 2 举报
AI智能生成
机器学习
作者其他创作
大纲/内容
下西洋跳棋
任务T
赢棋的概率
性能标准P
和自己对弈
经验E
目标函数V
算法
1.输入数据(Raw data)
2.特征工程(Deploy in)
3.模型训练(Features)
4.模型部署(Models)
5.模型应用(production)
机器学习方法流程
将输入的所有可能取值的集合称作输入空间。
输入空间(Input Space)
将输出的所有可能取值的集合称作输出空间。
输出空间(Output Space)
输入空间和输出空间可以是有限元素的集合,也可以是整个欧氏空间
输入空间和输出空间可以是连续值集合,也可以是离散值集合
输入空间和输出空间可以是同一个空间,也可以是不同空间
通常输出空间会比输入空间小
特点
输入输出空间
由输入空间到输出空间的映射的集合,称作假设空间。
假设空间 (Hypothesis Space)
即属性。每个输入实例的各个组成部分(属性)称作原始特征,基于原始特征还可以扩展出更多的衍生特征。
特征(Feature )
由多个特征组成的集合,称作特征向量。
特征向量(Feature Vector)
将特征向量存在的空间称作特征空间。
特征空间(Feature Space)
特征空间中每一维都对应了一个特征(属性)
特征空间可以和输入空间相同,也可以不同
需将将实例从输入空间映射到特征空间
模型实际上是定义于特征空间之上的
机器学习就是在输入空间和输出空间形成的各种假设空间,这就是机器学习的实质
机器学习的实质
基本概念
输入空间到输出空间的映射关系。学习过程即为从假设空间中搜索适合当前数据的假设。
分类(Classification)
预测分类
回归(Regression)
预测取值
聚类(Clustering)
发现结构
异常检测(Anomaly Detection)
发现异常数据
需要解决的问题
模型(model)
从假设空间众多的假设中选择到最优的模型的学习标准或规则。
(1)评估某个模型对单个训练样本的效果
(2)评估某个模型对训练集的整体效果
(3)评估某个模型对包括训练集、预测集在内的所有数据的整体效果
需要解决问题
用来衡量预测结果和真实结果之间的差距,其值越小,代表预测结果和真实结果越一致。
通常是一个非负实值函数,通过各种方式缩小损失函数的过程被称作优化。
定义
预测值和实际值精确相等则“没有损失”为0,否则意味着“完全损失”,为1预测值和实际值精确相等有些过于严格,可以采用两者的差小于某个國值的方式。
0-1损失函数(0-1LF)
预测结果与真实结果差的绝对值。
绝对损失函数(Absolute LF)
预示结果与真实结果差的平方。
每个样本的误差都是正的,累加不会被抵消
平方对于大误差的惩罚大于小误差
数学计算简单、友好,导数为一次函数
平方损失函数(Quadratic LF)
或名对数似然损失函数(log-likehood loss function)
L(Y,P(Y∣X))= -logP(Y∣X)
对数函数具有单调性,在求最优化问题时,结果与原始目标一致。
可将乘法转化为加法
对数损失函数(Logarithmic LF)
单调性、非负性的优良性质,使得越接近正确结果误差越小
指数损失函数(Exponential LF)
常见于SVM
也称铰链损失,对于判定边界附近点的惩罚力度较高
折叶损失函数(Hings LF)
...
种类
不同的损失函数有不同的特点,适用于不同的场景
0-1 Loss
Cross Entropy Loss
Hinge Loss
Exponential Loss
Modified Huber Loss
分类任务常用损失函数
均方误差MSE
平均绝对误差MAE
Huber损失
Log-Cosh损失
回归任务常用损失函数
0-1:理想状况模型
Log:逻辑回归、交叉熵
Squared:线性回归
Exponential:AdaBoosting
Hinge:SVM、soft margin
对应关系
适用场景
损失函数(Loss Function)
期望风险是模型对全局(所有数据集)的效果;经验风险是模型对局部(训练集)的效果
当训练集足够大时,经验风险可以替代期望风险,即局部最优代替全局最优
经验风险和期望风险的对比
期望风险
经验风险越小说明模型f(x)对训练集的拟合程度越好。
在样本较小时,仅关注经验风险,很容易导致过拟合。
经验风险的问题
经验风险( Empirical Risk)
在经验风险的基础上,增加一个正则化项( Regularizer)或者叫做惩罚项( Penalty Term),其中λ为一个大于0的系数,J(f) 表示模型f(x)的复杂度。
常常用来度量向量的长度或者大小。
范数( Norm)
L0范数
L1范数
L2范数
L范数
范数
正则化项
消除过拟合
当经验风险函数小到一定程度就出现了过拟合现象
需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化
把两个式子融合成一个式子得到结构风险函数然后对这个结构风险函数进行最小化
经验风险与结构风险对比
结构风险( Structural Risk)
4. 期望风险更侧重于风险的定量分析与判断。经验风险偏重定性分析。结构风险兼顾定性与定量方法。三者皆可用于风险管理的各个环节。
三者对比
风险函数
衡量问题的指标
经验风险最小(EMR :Empirical Risk Minimization)
结构风险最小(SRM : Structural Risk Minimization)
基本策略
策略(strategy)
学习模型的具体的计算方法,通常是求解最优化问题。
算法(algorithm)
机器学习三要素
基本内容
基础
模型的预测输出值与其真实值之间的差异。
误差(Error)
通过已知的样本数据进行学习,从而得到模型的过程。
训练(Training)
模型作用于训练集时的误差。
训练误差(Training Error)
由具体的、个别的扩大为一般的,即从特殊都一般,称为泛化。对机器学习的模型来讲,泛化是指模型作用于新的样本数据(非训练集)。
泛化(Generalize)
模型作用于新的样本数据时的误差。
泛化误差(Generalization Error)
是指其拟合各种模型的能力。
模型容量(Model Capacity)
模型将训练集的特征学习的太好,导致一些非普遍规律被模型接纳和体现,从而在训练集上表现好,但是对于新样本表现差。
某个模型在训练集上表现很好,但是在新样本上表现差。
过拟合(Overfitting)
模型对训练集的一般性质学习较差,模型作用于训练集时表现不好。
欠拟合(Underfitting)
拟合
基础概念
模型选择
通过实验测试,对模型的泛化误差进行评估,选出泛化误差最小的模型。
测试集和训练集尽可能互斥
测试集和训练集独立同分布
待测数据集全集未知,使用测试集进行泛化测试,测试误差(TestingError)即为泛化误差的近似。
模型评估思路
将已知数据集分成两个互斥的部分,其中一部分用来训练模型,另部分用来测试模型,评估其误差,作为泛化误差的估计。
两个数据集的划分要尽可能保持数据分布一致性,避免因数据划分过程引入为的偏差
数据分割存在多种形式会导致不同的训练集、测试集划分,单次留出法结果往往存在偶然性,其稳定性较差,通常会进行若干次随机划分、重复实验评估取平均值作为评估结果
数据集拆分成两部分,每部分的规模设置会影响评估结果,测试、训练的比例通常为7:3、8:2等。
保持样本的类别比例相似,即采用分层采样(Stratified Sampleing)
要点
测试集和训练集分开,缓解了过拟合
留出法
将数据集划分k个大小相似的互斥的数据子集,子集数据尽可能保证数据分布的一致性(分层采样),每次从中选取一个数据集作为测试集,其余用作训练集,可以进行k次训练和测试,得到评估均值。
该验证方法也称作k折交叉验证(k-fold Cross Validation)。
使用不同的划分,重复p次,称为p次k折交叉验证。
缺点是当数据集较大时,训练次数和计算规模较大。
留一法( Leave-One-Out LOO)
特例
交叉验证法
是一种产生样本的抽样方法,其实质是有放回的随机抽样。
样本量较小时可以通过自助法产生多个自助样本集,且有约36.8%的测试样本
对于总体的理论分布没有要求
无放回抽样引入了额外的偏差
自助法( Bootstrapping)
方法种类
对于已知数据集较小且难以有效划分训练集/测试集的时候,采用自助法
方法选择
基于样本的评估方法
0-1损失函数
平方损失函数
绝对损失函数
对数损失函数
基于损失函数的评估方法
赤池信息准则(AIC)
贝叶斯信息准则(BIC)
基于信息准则的评估方法
模型评估方法
模型评估
评价模型泛化能力的标准。对于不同的模型,有不同的评价标准,不同的评价标准将导致不同的评价结果。模型的好坏是相对的,取决于对于当前任务需求的完成情况。
性能度量(Performance Measure)
均方误差(MSE)(Mean Squared Error)
均方根误差(RMSE)
平均绝对误差(MAE)
R方值
回归问题
分类错误的样本占总样本数的比例
错误率
分类正确的样本占总样本数的比例
精度
预测结果为正的样本中实际值也为正的比例
查准率
实际值为正的样本中被预测为正的样本比例
查全率
召回率
精确率/精度
F1值
受试者特征曲线(ROC)曲线
曲线下面积(AUC)值
P-R曲线
将预测分类结果和实际分类结果做成矩阵的形式显示
混淆矩阵
β值的不同体现了对查全率和查准率的不同倾向
Fβ-score
真正例率-假正例率曲线
TPR-FPR曲线
不同类型的预测错误对结果影响不同而增加代价(cost),绘制
代价曲线
分类问题
将类聚结果同某个参考模型进行比较
外部指标(External Index)
不使用参考模型直接考察类聚结果
内部指标(Internal Index)
聚类问题
不同模型度量
模型性能度量
选择合适的评估方法和相应的性能度量,计算出性能度量后直接比较。
问题
事先对总体的参数或者分布做一个假设,然后基于已有的样本数据去判断这个假设是否合理。
即样本和总体假设之间的不同是纯属机会变异(因为 随机性误差导致的不同), 还是两者确实不同。
统计假设检验( Hypothesis Test)
从样本推断整体
通过反证法推断假设是否成立
小概率事件在一次试验中基本不会发生
不轻易拒绝原假设
通过显著性水平定义小概率事件不可能发生的概率
全称命题只能被否定而不能被证明
基本思想
搜集证据希望推翻的假设,记作Ho
原假设(Null Hypothesis)
搜集证据予以支持的假设,记作 H1
备择假设(Alternative Hypothesis)
根据具体的问题,建立假设
Ho∶u =uo,H∶u ≠uo不等于、有差异
双尾检验
Ho∶u ≥4o,H:u<Ho降低、减少
左侧单尾检验
Ho∶u ≤uo,H:u> o提高,增加
右侧单尾检验
假设的形式
只有小概率事件发生了,才拒绝原假设,检验过程中保护原假设。
1、建立假设
显著水平α=0.05的意思是∶在原假设正确的情况下进行100次抽样,有5次错误的拒绝了原假设
原假设为真,被拒绝,称作第一类错误,其概率记作α,即为显著性水平,取值通常为0.5、0.025,0.01等
原假设为假,被接受,称作第二类错误,其概率记作β,即为检验功效(power of a test)
在做检验的过程中,会犯两种错误
检验水准(Size of a Test)
2、确定检验水准
根据资料类型、研究设计方案和统计推断的目的,选用适当检验方法和计算相应的统计量。
小样本(<30),总体标准差o未知的正态分布
t检验
即方差分析,检验两个正态随机变量的总体方差是否相等的一种假设检验方法
F检验
大样本(>=30)平均值差异性检测,又称u检验
Z检验
即卡方检验,用于非参数检验,主要是比较两个及两个以上样本率以及两个分类变量的关联性分析
×2检验
常见检验方法
3、构造统计量
4、计算p值
如果p值小于等于显著水平α,表明x小概率事件发生,拒绝原假设
统计量的值如果落在拒绝域内或者临界值,则拒绝原假设,落在接受域则不能拒绝原假设
5、得到结论
某工厂的一批产品,其次品率 μ 未知,按规定,如果 μ≤0.01,则该批产品可以接受。随机取样品100个,发现有3件次品,该批次产品是否达标?
我们搜集数据是为了找到不达标的证据,即原假设H0: μ≤0.01,备择假设H1:> μ>0.01
确定假设
采取最常用的α=0.05,或者是更严格的α=0.01
确定检验水平
构造统计量
p = 0.06099
计算 p 值
P值大于显著水平α,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设H0不成立。
不能证明H0不成立,也不能证明H。成立。总之目前次品率是低于0.01还是高于0.01,在没有更多证据之前,没有任何结论。
得到结论
二项式检验
通过数据证明两者不同,即原假设H0:μ1=μ2,备择假设H1:μ1≠μ2
采取最常用的α=0.05
两者均符合正态分布,且等方差,方差未知,使用T检验;代入求T检验量的值为:T=1.525
确定拒绝域:查 T 分布临界值表,T0.025/4=2.201,所以有T< T0.025/4,即 p>0.05
计算p值
p值大于显著水平α,不能拒绝原假设。即无法证明活动有效果。
T检验
例子
假设检验步骤
y=βo+β1x
检验自变量x对因变量y的影响程度是否显著
假设误差:满足均值为0的正态分布,原假设:Ho:β1=0备择假设:H1:β1=0
使用T检验,如果原假设成立,则x和y并无线性关系
回归系数的显著性检验
根据平方和分解式从回归效果检验回归方程的显著性
原假设:Ho: β1=0备择假设:H1: β1≠0
使用F检验,如果原假设成立,则说明回归方程不显著,该方程并无实质意义
回归方程的显著性检验
检验两变量之间是否真正相关,或两个相关系数之间的差异是否显著
原假设:Ho:p=0备择假设:H1:p≠0
相关系数的显著性检验
假设检验在模型比较中的应用
假设检验
模型性能比较
模型性能
偏差度量了学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力。
偏差( Bias)
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
方差( Variance)
噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度
为真实标记与数据集中的实际标记间的偏差。通常由多种因素综合影响造成,不可去除。
噪声( Noise)
期望的模型结果
概念
泛化误差组成推导
偏差与方差
模型评估与选择
缺失值处理
重复值处理
异常值处理
数据清洗
过滤式
包裹式
嵌入式
特征选择
特征编码
特征缩放
特征变换
特征构建
主成分分析
线性判别分析
因子分析
独立成分分析
特征降维
特征工程
GridSearch
RandomSearch
贝叶斯优化
遗传算法
参数调节
准确率
AUC值
评价指标
数据转换
数据预处理
线性回归
逻辑回归
决策树
随机森林
支持向量机
神经网络
Bagging
Boosting
Stacking
模型融合
SHAP值
LIME解释
局部可解释性
全局可解释性
模型解释
模型调参
利用-组已知类别的样本来训练模型,使其达到性能要求。
输入数据(训练数据)均有一一个明确的标识或结果(标签)。即我们提供样例\"教\"计算机如何学习。
NB (朴素贝叶斯 ,Naive Bayes )
贝叶斯分类
基于统计的
自变量
因变量
终止条件
准备工作
得到当前待处理子集计算所有特征信息度量得到当前最佳分类特征
选择特征
根据选中特征将当前记录分成不同分支,分支个数取决于算法
创建分支
判断是否满足终止条件满足则退出循环不满足则继续递归调用
是否终止
判断是否需要剪枝需要则进行适当修剪不需要则为最终结果
结果生成
构建流程
描述混乱程度的度量
公式
熵
基尼系数
过程
信息增益和特征选择
信息增益
明确信息度量方式
纯度
记录条数
循环次数
明确分支终止条件
熟悉数据
C4.5
C50
ID3算法的进化
ID3( Iterative Dichotomiser 3,迭代树三代)
核心是基尼系数( Gini )
分类是二叉树
支持连续值和离散值
后剪枝进行修剪
CART ( Classification and Regression Tree )
子主题
算法对比
基于规则的
神经网络算法
基于神经网络的
分类算法中最简单的算法之一
KNN 不但可以预测分类,还可以做回归分析(预测具体的值)。
k-Nearest Neighbour
步骤
repeat 计算已知类别数据集中的点与当前之间的距离 按照距离递增次序排序until 样本点遍历完成返回前k个样本点统计 k 个样本点中出现频率最高的类别标签
伪代码
重新训练代价较低
时间、空间复杂度取决于训练集(一般不算太大)
优点
k 值对结果影响大(试想一下 k=1 和 k=N 的极端情况)
不同类记录相差较大时容易误判
相对于决策树,结果可解释性不强
缺点
优缺点
KNN ( K最近邻)
基于距离的
算法种类
预测结果与实际结果的比例
精确率
预测结果中某类结果的正确覆盖率
F1-Score
评估指标
分类Classification
举例
线性回归( Linear Regression )
逻辑回归( Logistic Regression )
岭回归( Ridge Regression )
拉索回归( LASSO Regression )
回归Regression
序列预测
监督学习( Supervised learning )
从无标记的训练数据中推断结论。
特点为输入数据(训练数据)不存在明确的标识或结果(标签)。
层次聚类
工作原理
观察法 枚举法 其他技术手段
Step1
Step 2
重新计算k个类簇的中心点,更新原有中心点的位置 C1,C2..Ck
Step 3
Step4
K 均值(K-Means)
PCA(主成分分析)
PLS (偏最小二乘回归)
MDS (多维尺度分析)
降维
DBScan
最大期望(EM:Expectation Maximization )
划分聚类
密度聚类
聚类
关联规则是反映事物与事物间相互的依存关系和关联性。
Apriori
Eclat
关联规则(Association Rule)
无监督学习( Unsupervised learning )
定义半监督学习是介于监督学习和无监督学习之间的一种学习方式,利用少量有标记的数据和大量无标记的数据,通过学习未标记样本之间的关系来进行分类或聚类。
AUC
ROC曲线
定义基于图的半监督学习方法是将未标记的数据点看作图中的节点,利用它们之间的相似性构建图,然后通过图上的标记点传播标签信息,最终对未标记点进行分类。
算法1.LabelPropagation;2.LabelSpreading;3.HarmonicFunction;4.ManifoldRegularization。
基于图的方法
定义基于生成模型的半监督学习方法是通过对数据的生成过程进行建模,利用未标记数据来学习模型参数,最终对未标记点进行分类。
算法1.生成式判别对抗网络(GAN);2.期望最大化算法(EM);3.贝叶斯方法。
基于生成模型的方法
定义基于判别模型的半监督学习方法是通过对数据的判别过程进行建模,利用未标记数据来学习模型参数,最
基于判别模型的方法
基于协同训练的方法
基于深度学习的方法
分类
可以利用未标记数据,提高模型的泛化能力
减少了标记数据的成本
可以应用于大规模的数据集
避免标注偏差
无标签数据质量影响模型性能
模型设计和调参困难
可能会受到噪声的影响
图像分类
文本分类
目标检测
数据聚类
应用
半监督学习
强化学习是一种机器学习方法,通过与环境交互来学习如何做出决策以最大化奖励信号。
强化学习的核心是智能体(agent)和环境(environment)之间的交互。
本质就是解决\"决策(decision making)\
本质
智能体(agent)
环境(environment)
状态(state)
动作(action)
奖励(reward)
策略(policy)
元素
Q-learning
SARSA
DQN
Actor-Critic
时间差学习( Temporal difference learning)
游戏AI
机器人控制
自然语言处理
推荐系统
稳定性
数据效率
可解释性
探索与利用的平衡
挑战
强化学习(Reinforcement Learning)
集成学习
初衷是节省人工标注
迁移学习是要把已学训练好的模型参数迁移到新的模型来帮助新模型训练数据集。
可以被视为跨越多个机器学习领域的技术。
迁移学习
卷积神经网络
循环神经网络
自编码器
生成对抗网络
受限波尔兹曼机 Restricted Boltzmann Machine ( RBM )
深度信念网络 Deep Belief Networks ( DBN )
卷积网络 Convolutional Network
栈式自编码 Stacked Auto- encoders
深度学习
学习类型
计算机视觉
异常检测
金融风控
医疗诊断
机器学习应用
机器学习
机器学习常用算法
机器学习资料汇总
推荐课程,内容简洁凝练,脉络清晰,通俗易懂
人工智能学习路线(阿里云)
参考资料
0 条评论
下一页