机器学习
2023-04-27 21:00:12 2 举报
AI智能生成
机器学习
作者其他创作
大纲/内容
基础
基本内容
算法
任务T
下西洋跳棋
性能标准P
赢棋的概率
经验E
和自己对弈
目标函数V
基本概念
机器学习方法流程
1.输入数据(Raw data)
2.特征工程(Deploy in)
3.模型训练(Features)
4.模型部署(Models)
5.模型应用(production)
输入输出空间
输入空间(Input Space)
将输入的所有可能取值的集合称作输入空间。
输出空间(Output Space)
将输出的所有可能取值的集合称作输出空间。
特点
输入空间和输出空间可以是有限元素的集合,也可以是整个欧氏空间
输入空间和输出空间可以是连续值集合,也可以是离散值集合
输入空间和输出空间可以是同一个空间,也可以是不同空间
通常输出空间会比输入空间小
假设空间 (Hypothesis Space)
由输入空间到输出空间的映射的集合,称作假设空间。
特征空间(Feature Space)
特征(Feature )
即属性。每个输入实例的各个组成部分(属性)称作原始特征,基于原始特征还可以扩展出更多的衍生特征。
特征向量(Feature Vector)
由多个特征组成的集合,称作特征向量。
特征空间(Feature Space)
将特征向量存在的空间称作特征空间。
特点
特征空间中每一维都对应了一个特征(属性)
特征空间可以和输入空间相同,也可以不同
需将将实例从输入空间映射到特征空间
模型实际上是定义于特征空间之上的
机器学习的实质
机器学习就是在输入空间和输出空间形成的各种假设空间,这就是机器学习的实质
机器学习三要素
模型(model)
输入空间到输出空间的映射关系。学习过程即为从假设空间中搜索适合当前数据的假设。
需要解决的问题
预测分类
分类(Classification)
预测取值
回归(Regression)
发现结构
聚类(Clustering)
发现异常数据
异常检测(Anomaly Detection)
策略(strategy)
从假设空间众多的假设中选择到最优的模型的学习标准或规则。
需要解决问题
(1)评估某个模型对单个训练样本的效果
(2)评估某个模型对训练集的整体效果
(3)评估某个模型对包括训练集、预测集在内的所有数据的整体效果
衡量问题的指标
损失函数(Loss Function)
定义
用来衡量预测结果和真实结果之间的差距,其值越小,代表预测结果和真实结果越一致。
通常是一个非负实值函数,通过各种方式缩小损失函数的过程被称作优化。
损失函数记做L(Y,f(x))。
种类
0-1损失函数(0-1LF)
预测值和实际值精确相等则“没有损失”为0,否则意味着“完全损失”,为1预测值和实际值精确相等有些过于严格,可以采用两者的差小于某个國值的方式。
绝对损失函数(Absolute LF)
预测结果与真实结果差的绝对值。
L(Y,f(X))=|Y-f(X)|
特点
简单易懂,但是计算不方便。
平方损失函数(Quadratic LF)
预示结果与真实结果差的平方。
L(Y,f(X))=(Y-f(X))²
特点
每个样本的误差都是正的,累加不会被抵消
平方对于大误差的惩罚大于小误差
数学计算简单、友好,导数为一次函数
对数损失函数(Logarithmic LF)
或名对数似然损失函数(log-likehood loss function)
L(Y,P(Y∣X))= -logP(Y∣X)
特点
对数函数具有单调性,在求最优化问题时,结果与原始目标一致。
可将乘法转化为加法
指数损失函数(Exponential LF)
特点
单调性、非负性的优良性质,使得越接近正确结果误差越小
折叶损失函数(Hings LF)
也称铰链损失,对于判定边界附近点的惩罚力度较高
常见于SVM
L(f(x))=max(0,1-f(x))
...
适用场景
不同的损失函数有不同的特点,适用于不同的场景
分类任务常用损失函数
0-1 Loss
Cross Entropy Loss
Hinge Loss
Exponential Loss
Modified Huber Loss
回归任务常用损失函数
均方误差MSE
平均绝对误差MAE
Huber损失
Log-Cosh损失
对应关系
0-1:理想状况模型
Log:逻辑回归、交叉熵
Squared:线性回归
Exponential:AdaBoosting
Hinge:SVM、soft margin
风险函数
期望风险
定义
又称期望损失、期望风险。所有数据集(包括训练集和预测集,遵循联合分布P(X,Y) )的损失函数的期望值。
经验风险和期望风险的对比
期望风险是模型对全局(所有数据集)的效果;经验风险是模型对局部(训练集)的效果
期望风险往往无法计算,即联合分布P(X,Y)通常是未知的;经验风险可以计算
当训练集足够大时,经验风险可以替代期望风险,即局部最优代替全局最优
经验风险( Empirical Risk)
定义
损失函数度量了单个样本的预测结果,要想衡量整个训练集的预测值与真实值的差异,将整个训练集所有记录均进行一-次预测 ,求取损失函数,将所有值累加,即为经验风险。
经验风险越小说明模型f(x)对训练集的拟合程度越好。
经验风险的问题
在样本较小时,仅关注经验风险,很容易导致过拟合。
结构风险( Structural Risk)
定义
在经验风险的基础上,增加一个正则化项( Regularizer)或者叫做惩罚项( Penalty Term),其中λ为一个大于0的系数,J(f) 表示模型f(x)的复杂度。
消除过拟合
范数
规则化函数 λj(f) 有多种选择,一般地,它是模型复杂度的单调递增函数,模型越复杂,该函数的值就越大,惩罚力度相应的越大。常用模型的参数向量的范数。常用的有零范数、一范数、二范数、迹范数、 Frobenius 范数和核范数等等。
范数( Norm)
是数学中的一种基本概念,它定义在赋泛线性空间中,满足①非负性;②齐次性;③三角不等式等条件的量。
常常用来度量向量的长度或者大小。
L范数
L0范数
非0的元素的个数。使用L0范数,期望参数大部分为0 ,即让参数是稀疏的。
L1范数
各个元素的绝对值之和,使用L1范数,会使参数稀疏。L1 也被称为稀疏规则算子。
L2范数
各元素的平方和求平方根,使得每个元素都很小,但不会等于0, 而是接近0。
正则化项
即惩罚函数,该项对模型向量进行惩罚,从而避免过拟合问题。正则化方法会自动削弱不重要的特征变量,自动从许多的特征变量中”提取“重要的特征变量,减小特征变量的数量级.
经验风险与结构风险对比
经验风险越小,模型决策函数越复杂,其包含的参数越多
当经验风险函数小到一定程度就出现了过拟合现象
防止过拟合现象的方式,就要降低决策函数的复杂度,让惩罚项J(f)最小化
需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化
把两个式子融合成一个式子得到结构风险函数然后对这个结构风险函数进行最小化
三者对比
1. 期望风险属于前瞻性的风险分析方法。它基于对未来可能发生事件的预测与判断来评估风险,属于模型驱动的方法。经验风险基于历史数据,属于数据驱动的方法。结构风险考虑系统层面因素,属于系统驱动的方法。
2. 期望风险需要建立事件发生的概率模型与经济影响模型,其结果受这些理论模型的准确性影响较大。经验风险直接基于真实发生的历史事件,不依赖理论模型,结果比较客观真实。结构风险通过识别系统网络来判断风险,也比较数据与模型驱动。
3. 期望风险可以评估更为广泛的事件与情形,不受历史数据的限制,但是其预测存在一定不确定性。经验风险局限于历史事件范围,但结果比较确定。结构风险综合考虑,但也面临不确定性,特别是在系统运转机制方面。
4. 期望风险更侧重于风险的定量分析与判断。经验风险偏重定性分析。结构风险兼顾定性与定量方法。三者皆可用于风险管理的各个环节。
期望风险侧重于模型与前瞻判断,经验风险侧重于数据与定性判断,结构风险考虑系统因素。
基本策略
经验风险最小(EMR :Empirical Risk Minimization)
结构风险最小(SRM : Structural Risk Minimization)
算法(algorithm)
学习模型的具体的计算方法,通常是求解最优化问题。
模型评估与选择
模型选择
定义
模型选择需要综合考虑任务类型、数据规模与复杂度、运算成本与泛化性能等多方面因素。选择最合适的模型,并不断优化与改进,是获得最优学习效果的关键。
基础概念
误差(Error)
模型的预测输出值与其真实值之间的差异。
训练(Training)
通过已知的样本数据进行学习,从而得到模型的过程。
训练误差(Training Error)
模型作用于训练集时的误差。
泛化(Generalize)
由具体的、个别的扩大为一般的,即从特殊都一般,称为泛化。对机器学习的模型来讲,泛化是指模型作用于新的样本数据(非训练集)。
泛化误差(Generalization Error)
模型作用于新的样本数据时的误差。
拟合
模型容量(Model Capacity)
是指其拟合各种模型的能力。
过拟合(Overfitting)
某个模型在训练集上表现很好,但是在新样本上表现差。
模型将训练集的特征学习的太好,导致一些非普遍规律被模型接纳和体现,从而在训练集上表现好,但是对于新样本表现差。
欠拟合(Underfitting)
模型对训练集的一般性质学习较差,模型作用于训练集时表现不好。
模型评估
模型评估思路
通过实验测试,对模型的泛化误差进行评估,选出泛化误差最小的模型。
待测数据集全集未知,使用测试集进行泛化测试,测试误差(TestingError)即为泛化误差的近似。
测试集和训练集尽可能互斥
测试集和训练集独立同分布
模型评估方法
基于样本的评估方法
方法种类
留出法
将已知数据集分成两个互斥的部分,其中一部分用来训练模型,另部分用来测试模型,评估其误差,作为泛化误差的估计。
要点
两个数据集的划分要尽可能保持数据分布一致性,避免因数据划分过程引入为的偏差
数据分割存在多种形式会导致不同的训练集、测试集划分,单次留出法结果往往存在偶然性,其稳定性较差,通常会进行若干次随机划分、重复实验评估取平均值作为评估结果
数据集拆分成两部分,每部分的规模设置会影响评估结果,测试、训练的比例通常为7:3、8:2等。
保持样本的类别比例相似,即采用分层采样(Stratified Sampleing)
特点
实现简单、方便,在一定程度上能评估泛化误差
测试集和训练集分开,缓解了过拟合
一次划分,评估结果偶然性大
数据被拆分后,用于训练、测试的数据更少了
交叉验证法
将数据集划分k个大小相似的互斥的数据子集,子集数据尽可能保证数据分布的一致性(分层采样),每次从中选取一个数据集作为测试集,其余用作训练集,可以进行k次训练和测试,得到评估均值。
该验证方法也称作k折交叉验证(k-fold Cross Validation)。
使用不同的划分,重复p次,称为p次k折交叉验证。
特例
留一法( Leave-One-Out LOO)
是k折交叉验证的特殊形式,将数据集分成两个,其中一个数据集记录条数为1,作为测试集使用,其余记录作为训练集训练模型。
训练出的模型和使用全部数据集训练得到的模型接近,其评估结果比较准确。
缺点是当数据集较大时,训练次数和计算规模较大。
特点
k可以根据实际情况设置,充分利用了所有样本
多次划分 ,评估结果相对稳定。
计算比较繁琐,需要进行k次训练和评估
自助法( Bootstrapping)
是一种产生样本的抽样方法,其实质是有放回的随机抽样。
即从已知数据集中随机抽取一条记录,然后将该记录放入测试集同时放回原数据集,继续下一次抽样,直到测试集中的数据条数满足要求。
特点
样本量较小时可以通过自助法产生多个自助样本集,且有约36.8%的测试样本
对于总体的理论分布没有要求
无放回抽样引入了额外的偏差
方法选择
已知数据集数量充足时,通常采用留出法或者k折交叉验证法
对于已知数据集较小且难以有效划分训练集/测试集的时候,采用自助法
对于已知数据集较小且可以有效划分训练集/测试集的时候,采用留一法
基于损失函数的评估方法
0-1损失函数
平方损失函数
绝对损失函数
对数损失函数
基于信息准则的评估方法
赤池信息准则(AIC)
贝叶斯信息准则(BIC)
模型性能
模型性能度量
性能度量(Performance Measure)
评价模型泛化能力的标准。对于不同的模型,有不同的评价标准,不同的评价标准将导致不同的评价结果。模型的好坏是相对的,取决于对于当前任务需求的完成情况。
不同模型度量
回归问题
均方误差(MSE)(Mean Squared Error)
均方根误差(RMSE)
平均绝对误差(MAE)
R方值
分类问题
错误率
分类错误的样本占总样本数的比例
精度
分类正确的样本占总样本数的比例
查准率
预测结果为正的样本中实际值也为正的比例
查全率
实际值为正的样本中被预测为正的样本比例
召回率
精确率/精度
F1值
受试者特征曲线(ROC)曲线
曲线下面积(AUC)值
P-R曲线
混淆矩阵
将预测分类结果和实际分类结果做成矩阵的形式显示
Fβ-score
β值的不同体现了对查全率和查准率的不同倾向
TPR-FPR曲线
真正例率-假正例率曲线
代价曲线
不同类型的预测错误对结果影响不同而增加代价(cost),绘制
聚类问题
外部指标(External Index)
将类聚结果同某个参考模型进行比较
Jaccard系数(Jaccrd Coefficient,JC)
FM指数(Fowlkes and Mallows Index,FMI)
Rand指数(Rand Index,RI)
内部指标(Internal Index)
不使用参考模型直接考察类聚结果
DB指数(Davise-Bouldin Index,DBI)
Dunn指数(Dunn Index,DI)
模型性能比较
选择合适的评估方法和相应的性能度量,计算出性能度量后直接比较。
问题
选择合适的评估方法和相应的性能度量,计算出性能度量后直接比较。
模型评估得到的是测试集上的性能,并非严格意义上的泛化性能,两者并不完全相同
测试集上的性能与样本选取关系很大,不同的划分,测试结果会不同,比较缺乏稳定性
假设检验
统计假设检验( Hypothesis Test)
事先对总体的参数或者分布做一个假设,然后基于已有的样本数据去判断这个假设是否合理。
即样本和总体假设之间的不同是纯属机会变异(因为 随机性误差导致的不同), 还是两者确实不同。
基本思想
从样本推断整体
通过反证法推断假设是否成立
小概率事件在一次试验中基本不会发生
不轻易拒绝原假设
通过显著性水平定义小概率事件不可能发生的概率
全称命题只能被否定而不能被证明
假设检验步骤
1、建立假设
根据具体的问题,建立假设
原假设(Null Hypothesis)
搜集证据希望推翻的假设,记作Ho
备择假设(Alternative Hypothesis)
搜集证据予以支持的假设,记作 H1
假设的形式
双尾检验
Ho∶u =uo,H∶u ≠uo不等于、有差异
左侧单尾检验
Ho∶u ≥4o,H:u<Ho降低、减少
右侧单尾检验
Ho∶u ≤uo,H:u> o提高,增加
只有小概率事件发生了,才拒绝原假设,检验过程中保护原假设。
2、确定检验水准
检验水准(Size of a Test)
又称显著性水平(Significance Level),记作α,是指原假设正确,但是最终被拒绝的概率
在做检验的过程中,会犯两种错误
原假设为真,被拒绝,称作第一类错误,其概率记作α,即为显著性水平,取值通常为0.5、0.025,0.01等
显著水平α=0.05的意思是∶在原假设正确的情况下进行100次抽样,有5次错误的拒绝了原假设
原假设为假,被接受,称作第二类错误,其概率记作β,即为检验功效(power of a test)
3、构造统计量
根据资料类型、研究设计方案和统计推断的目的,选用适当检验方法和计算相应的统计量。
常见检验方法
t检验
小样本(<30),总体标准差o未知的正态分布
F检验
即方差分析,检验两个正态随机变量的总体方差是否相等的一种假设检验方法
Z检验
大样本(>=30)平均值差异性检测,又称u检验
×2检验
即卡方检验,用于非参数检验,主要是比较两个及两个以上样本率以及两个分类变量的关联性分析
4、计算p值
5、得到结论
如果p值小于等于显著水平α,表明x小概率事件发生,拒绝原假设
统计量的值如果落在拒绝域内或者临界值,则拒绝原假设,落在接受域则不能拒绝原假设
例子
二项式检验
某工厂的一批产品,其次品率 μ 未知,按规定,如果 μ≤0.01,则该批产品可以接受。随机取样品100个,发现有3件次品,该批次产品是否达标?
确定假设
我们搜集数据是为了找到不达标的证据,即原假设H0: μ≤0.01,备择假设H1:> μ>0.01
确定检验水平
采取最常用的α=0.05,或者是更严格的α=0.01
构造统计量
产品是否合格符合二项式分布,原假设成立,则满足b(k;n,001)
计算 p 值
p = 0.06099
得到结论
P值大于显著水平α,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设H0不成立。
不能证明H0不成立,也不能证明H。成立。总之目前次品率是低于0.01还是高于0.01,在没有更多证据之前,没有任何结论。
T检验
某网站为了搞了一波市场活动,活动前一周的PV (单位:万)为1.40,1.38, 1.43, 1.42, 1.44, 1.37,141,活动后六天的 PV (单位:万)为 1.35,1.40,1.42,1.36,1.38,1.40。活动对 PV 有无影响?
假设活动前后 PV均符合正态分布,且方差相同。
确定假设
通过数据证明两者不同,即原假设H0:μ1=μ2,备择假设H1:μ1≠μ2
确定检验水平
采取最常用的α=0.05
构造统计量
两者均符合正态分布,且等方差,方差未知,使用T检验;代入求T检验量的值为:T=1.525
计算p值
确定拒绝域:查 T 分布临界值表,T0.025/4=2.201,所以有T< T0.025/4,即 p>0.05
得到结论
p值大于显著水平α,不能拒绝原假设。即无法证明活动有效果。
假设检验在模型比较中的应用
回归系数的显著性检验
y=βo+β1x
检验自变量x对因变量y的影响程度是否显著
假设误差:满足均值为0的正态分布,原假设:Ho:β1=0备择假设:H1:β1=0
使用T检验,如果原假设成立,则x和y并无线性关系
回归方程的显著性检验
y=βo+β1x
根据平方和分解式从回归效果检验回归方程的显著性
原假设:Ho: β1=0备择假设:H1: β1≠0
使用F检验,如果原假设成立,则说明回归方程不显著,该方程并无实质意义
相关系数的显著性检验
检验两变量之间是否真正相关,或两个相关系数之间的差异是否显著
原假设:Ho:p=0备择假设:H1:p≠0
偏差与方差
概念
偏差( Bias)
描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,即在样本上拟合的好不好。
偏差度量了学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力。
体现的是最终结果和实际结果的差异,偏差越小,和真实结果越接近
偏差体现的是拟合程度优劣,通常模型越复杂,偏差越小。当偏差较大时,即预期输出和实际结果偏离较大,称之为欠拟合。
方差( Variance)
模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
体现的是整体水平波动,方差越小,结果稳定性越好
方差体现的是模型的稳定程度。通常模型越简单,方差越小。
当方差较大时,模型不稳定,即对一些新数据的预测不稳定。偏差小,方差大的情况即为过拟合。
噪声( Noise)
为真实标记与数据集中的实际标记间的偏差。通常由多种因素综合影响造成,不可去除。
噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度
期望的模型结果
低偏差,低方差
泛化误差组成推导
特征工程
数据清洗
缺失值处理
重复值处理
异常值处理
特征选择
过滤式
包裹式
嵌入式
特征构建
特征编码
特征缩放
特征变换
特征降维
主成分分析
线性判别分析
因子分析
独立成分分析
模型调参
参数调节
GridSearch
RandomSearch
贝叶斯优化
遗传算法
评价指标
准确率
召回率
F1值
AUC值
数据预处理
特征选择
特征缩放
数据清洗
数据转换
模型选择
线性回归
逻辑回归
决策树
随机森林
支持向量机
神经网络
模型融合
Bagging
Boosting
Stacking
模型解释
SHAP值
LIME解释
局部可解释性
全局可解释性
学习类型
监督学习
( Supervised learning )
( Supervised learning )
定义
利用-组已知类别的样本来训练模型,使其达到性能要求。
特点
输入数据(训练数据)均有一一个明确的标识或结果(标签)。即我们提供样例"教"计算机如何学习。
种类
分类Classification
定义
通过已有数据集(训练集)的学习,得到一个目标函数f (模型) , 把每个属性集x映射到目标属性y (类) ,且y必须是离散的(若y为连续的,则属于回归算法)。
算法
算法种类
基于统计的
贝叶斯分类
算法
NB (朴素贝叶斯 ,Naive Bayes )
基于规则的
决策树
构建流程
准备工作
自变量
因变量
终止条件
选择特征
得到当前待处理子集计算所有特征信息度量得到当前最佳分类特征
创建分支
根据选中特征将当前记录分成不同分支,分支个数取决于算法
是否终止
判断是否满足终止条件满足则退出循环不满足则继续递归调用
结果生成
判断是否需要剪枝需要则进行适当修剪不需要则为最终结果
熟悉数据
明确信息度量方式
信息增益
熵
描述混乱程度的度量
取值范围 0~1 ,值越大,越混乱
公式
基尼系数
信息增益越大,对确定性贡献越大
信息增益和特征选择
过程
明确分支终止条件
纯度
记录条数
循环次数
算法
ID3( Iterative Dichotomiser 3,迭代树三代)
ID3算法的进化
C4.5
C50
CART ( Classification and Regression Tree )
核心是基尼系数( Gini )
特点
分类是二叉树
支持连续值和离散值
后剪枝进行修剪
支持回归,可以预测连续值
DT (决策树, Decision Tree ) : C45、CART
SVM (支持向量机, Support Vector Machine )
算法对比
子主题
基于神经网络的
神经网络算法
基于距离的
算法
KNN ( K最近邻)
k-Nearest Neighbour
分类算法中最简单的算法之一
核心思想是如果离某一个样本最近的 k 个本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
KNN 不但可以预测分类,还可以做回归分析(预测具体的值)。
步骤
Step 1:确定 k 值,确定计算距离的公式,比如欧氏距离
Step2:计算 r 和其他样本点之间的距离 di;r,其中i∈(1,N)
Step 3 :得到目前和 r 最接近的 k 个样本,作为 KNN 距的训练样本
Step4 :将 k 个样本中最多归属类别的分类标签赋予新记录 r ,分类结束
伪代码
repeat
计算已知类别数据集中的点与当前之间的距离
按照距离递增次序排序
until 样本点遍历完成
返回前k个样本点
统计 k 个样本点中出现频率最高的类别标签
计算已知类别数据集中的点与当前之间的距离
按照距离递增次序排序
until 样本点遍历完成
返回前k个样本点
统计 k 个样本点中出现频率最高的类别标签
优缺点
优点
原理简单,容易理解,容易实现
重新训练代价较低
时间、空间复杂度取决于训练集(一般不算太大)
缺点
KNN 属于 lazy-learning 算法,得到结果的及时性差
k 值对结果影响大(试想一下 k=1 和 k=N 的极端情况)
不同类记录相差较大时容易误判
样本点较多时,计算量较大
相对于决策树,结果可解释性不强
评估指标
精确率
预测结果与实际结果的比例
召回率
预测结果中某类结果的正确覆盖率
F1-Score
统计量,综合评估分类模型,取值0-1之间
回归Regression
举例
采集了一些父子的身,对这些数据进行建模,然后使用模型,根据输入的新的父亲的身高去预测其子身高的取值。
算法种类
线性回归( Linear Regression )
逻辑回归( Logistic Regression )
岭回归( Ridge Regression )
拉索回归( LASSO Regression )
序列预测
无监督学习
( Unsupervised learning )
( Unsupervised learning )
定义
从无标记的训练数据中推断结论。
特点为输入数据(训练数据)不存在明确的标识或结果(标签)。
种类
聚类
将相似的事物聚集在一起 ,而将不相似的事物划分到不同的类别的过程。
种类
层次聚类
划分聚类
算法
K 均值(K-Means)
K-Means 即 K 均值聚类,属于划分聚类。
工作原理
根据初始化的聚类中心信息,计算每个样本到这些中心的距离,可以判断每个样本均归属于某个类簇,更新聚簇中心信息,重新计算每个样本到新的聚类中心的距离,重新划分样本到新的聚类中心对应的类中,重复进行,直到满足终止条件。
步骤
Step1
确定聚类的个数k,并指定k个聚类的中心 C1,C2..Ck
观察法 枚举法 其他技术手段
Step 2
计算每个样本S;点到k个中心的距离,并将该点归入最近的C类中其中,ie(1,N),j∈(1,k)
Step 3
重新计算k个类簇的中心点,更新原有中心点的位置 C1,C2..Ck
Step4
重复步骤 Step 2、Step 3 ,直到中心点位置不再变化或者变化幅度小
伪代码
选择 k 个点作为初始类簇中心
repeat
将每个样本点指派到最近的类簇中心,形成k个类簇
重新计算每个类簇的中心
until 类簇不发生变化 or 达到最大迭代次数
repeat
将每个样本点指派到最近的类簇中心,形成k个类簇
重新计算每个类簇的中心
until 类簇不发生变化 or 达到最大迭代次数
优缺点
优点
原理简单,容易理解,容易实现
聚类结果容易解释
聚类结果相对较好
缺点
分类个数k需要事先指定,且指定的k值不同,聚类结果相差较大
初始的k个类簇中心对最终结果有影响,选择不同,结果可能会不同
能识别的类簇仅为球状,非球状的聚类效果很差
样本点较多时,计算量较大
对异常值敏感 ,对离散值需要特殊处理
降维
PCA(主成分分析)
PLS (偏最小二乘回归)
MDS (多维尺度分析)
DBScan
最大期望(EM:Expectation Maximization )
密度聚类
关联规则(Association Rule)
关联规则是反映事物与事物间相互的依存关系和关联性。
如果两个或多个事物间存在一定的关联关系,则其中一个事物能够通过其他事物预测到。最常见的场景就是购物篮分析( Market Basket)。
举例
分析顾客购物篮中的不同商品之间的关系,来分析顾客的购买习惯。经典案例就是啤酒与尿布。
根据某超市的购物篮信息,分析顾客的购物习惯,制定货物摆放或者捆绑销售策略。(Apriori)
首先确定最小支持度: 50% ,最小置信度: 50%
确定1 -频繁项集 {A}:50%,{B}:75%,{C} 75%,{E}:75%
确定2-频繁项集 {A,C}:50%,{B,C}:50%,{B,E} 75%,{C,E}:50%
确定3-频繁项集 {B,C, E}:50%
确定关联规则: 非空子集: {B},{C}{E},{B,C},{B,E},{C,E}
根据某超市的购物篮信息,分析顾客的购物习惯,制定货物摆放或者捆绑销售策略。(Apriori)
首先确定最小支持度: 50% ,最小置信度: 50%
确定1 -频繁项集 {A}:50%,{B}:75%,{C} 75%,{E}:75%
确定2-频繁项集 {A,C}:50%,{B,C}:50%,{B,E} 75%,{C,E}:50%
确定3-频繁项集 {B,C, E}:50%
确定关联规则: 非空子集: {B},{C}{E},{B,C},{B,E},{C,E}
算法
Apriori
Eclat
半监督学习
定义
定义半监督学习是介于监督学习和无监督学习之间的一种学习方式,利用少量有标记的数据和大量无标记的数据,通过学习未标记样本之间的关系来进行分类或聚类。
评价指标
准确率
召回率
F1值
AUC
ROC曲线
分类
基于图的方法
定义基于图的半监督学习方法是将未标记的数据点看作图中的节点,利用它们之间的相似性构建图,然后通过图上的标记点传播标签信息,最终对未标记点进行分类。
算法1.LabelPropagation;2.LabelSpreading;3.HarmonicFunction;4.ManifoldRegularization。
基于生成模型的方法
定义基于生成模型的半监督学习方法是通过对数据的生成过程进行建模,利用未标记数据来学习模型参数,最终对未标记点进行分类。
算法1.生成式判别对抗网络(GAN);2.期望最大化算法(EM);3.贝叶斯方法。
基于判别模型的方法
定义基于判别模型的半监督学习方法是通过对数据的判别过程进行建模,利用未标记数据来学习模型参数,最
基于协同训练的方法
基于深度学习的方法
优缺点
优点
可以利用未标记数据,提高模型的泛化能力
减少了标记数据的成本
可以应用于大规模的数据集
避免标注偏差
缺点
无标签数据质量影响模型性能
模型设计和调参困难
可能会受到噪声的影响
应用
图像分类
文本分类
目标检测
数据聚类
强化学习
(Reinforcement Learning)
(Reinforcement Learning)
定义
强化学习是一种机器学习方法,通过与环境交互来学习如何做出决策以最大化奖励信号。
强化学习的核心是智能体(agent)和环境(environment)之间的交互。
问题
增强学习要解决的问题是:一个能感知环境的自治 V agent,通过学习, 选择能达到其目标的最优动作。
本质
本质就是解决"决策(decision making)"问题,即学会自动进行决策比如控制移动机器人、在工厂中学习最优操作工序、学习棋类对弈等。
元素
智能体(agent)
环境(environment)
状态(state)
动作(action)
奖励(reward)
策略(policy)
算法
Q-learning
SARSA
DQN
Actor-Critic
时间差学习( Temporal difference learning)
应用
游戏AI
机器人控制
自然语言处理
推荐系统
挑战
稳定性
数据效率
可解释性
探索与利用的平衡
集成学习
算法
Bagging
Boosting
Stacking
迁移学习
迁移学习是要把已学训练好的模型参数迁移到新的模型来帮助新模型训练数据集。
初衷是节省人工标注
样本的时间,让模型可以通过已有的标记数据向未标记数据迁移。换言之,就是运用已有的知识来学习
新的知识,核心是找到已有知识和新知识之间的相似性。
可以被视为跨越多个机器学习领域的技术。
深度学习
卷积神经网络
循环神经网络
自编码器
生成对抗网络
受限波尔兹曼机 Restricted Boltzmann Machine ( RBM )
深度信念网络 Deep Belief Networks ( DBN )
卷积网络 Convolutional Network
栈式自编码 Stacked Auto- encoders
机器学习应用
计算机视觉
自然语言处理
推荐系统
异常检测
金融风控
医疗诊断
参考资料
机器学习
机器学习常用算法
机器学习资料汇总
人工智能学习路线(阿里云)
推荐课程,内容简洁凝练,脉络清晰,通俗易懂
0 条评论
下一页