机器深度学习知识框架笔记总结
2022-10-19 17:53:25 0 举报
AI智能生成
机器深度学习知识框架笔记总结
作者其他创作
大纲/内容
降维
好处
使数据集更易使用
降低很多算法的计算开销
去除噪声
使结果易懂
PCA Principal Component Analysis 主成分分析
概念
以方差的大小来决定新的维度
优点
降低数据的复杂性
识别最重要的多个特征
缺点
不一定需要
可能损失有用信息
适用
数值型
案例
半导体制造数据降维
SVD Singular Value Decomposition 奇异值分解
概念
从噪声数据中抽取相关特征
还是不懂!
矩阵分解
m行n列矩阵分解成三个矩阵相乘,分别m行m列,m行n列,n行n列
中间那个m行n列矩阵只有对角元素,且对角元素从大到小排列
对角元素称为奇异值
在某个奇异值的数据(r个)之后,其他奇异值都置为0
数据集中只有r个重要特征
优点
简化数据
去除噪声
提高算法结果
缺点
数据的转换可能难于理解
适用
数值型
案例
隐性语义索引 LSI/LSA
抽取文档中的概念
解决同义词问题
推荐系统
先利用SVD构建主题空间
再在该空间下计算相似度
图像压缩
保留奇异值
回归
线性回归
优点
易于理解
计算不复杂
缺点
对非线性数据拟合不好
适用
数值型
标称型
数据特征比样本多
岭回归
lasso
前向逐步回归
树回归
概念
对数据进行二元切分
节点为数值或线性函数
优点
可以对复杂和非线性数据建模
缺点
结果不易理解
适用
数值型
标称型
监督学习
k-近邻算法 kNN
概念
采用测量不同特征值之间的距离方法进行分类
优点
精度高
对异常值不敏感
无数据输入假定
缺点
计算复杂度高
空间复杂度高
适用
数值型
标称型
案例
约会网站效果匹配
手写识别
决策树
概念
按特征值划分法
二元划分法
划分数据集原则
信息熵entropy
信息增益information gain最大化
优点
计算复杂度不高
输出结果易于理解
对中间值的缺失不敏感
可以处理不相关特征数据
缺点
可能会过度匹配
适用
数值型
标称型
案例
眼部状况和适配的隐形眼镜类型
朴素贝叶斯
概念
计算某一点落在不同群落里的概率
利用条件概率
假定特征相互独立
优点
在数据较少情况下仍然有效
可以处理多类别问题
缺点
对输入数据的准备方式较敏感
适用
标称型
案例
垃圾邮件检测
Logistic回归
概念
划分两个数据集之间的分界线,类似回归
梯度下降算法
随机梯度下降
减少计算量
优点
计算代价不高
易于理解和实现
缺点
容易欠拟合
分类精度可能不高
适用
数值型
标称型
案例
从病症预测死亡率
支持向量机 SVM
概念
将数据映射到高维空间更容易被分类
核函数
将数据映射到高维空间
径向基函数
流行核函数
优点
泛化错误率低
计算开销不大
结果易理解
缺点
对参数调节和核函数的选择敏感
原始分类器不加修改仅适用于处理二类问题
适用
数值型
标称型
案例
手写识别
元算法 AdaBoost
概念
不同算法集成
同一算法不同设置集成
不同数据集不同分类器
性能度量
正确率
预测为正例的样本中真正正例的比例
召回率
预测为正例的真实正例占真实正例的比例
无监督学习
K-均值聚类
概念
设定簇个数
随机确定初始簇心
寻找各点最近的簇心
避免收敛到局部最小
度量效果
SSE误差平方和
后处理
将最大SSE簇拆分
合并
最近质心
使SSE增加最小的两个质心
二分K-均值
有一个簇不断一分为二
优点
易实现
缺点
可能收敛到局部最小值
在大数据集上收敛较慢
适用
数值型
案例
对地图上的点进行聚类
Apriori算法
概念
关联分析
频繁项集
关联规则
优点
易实现
缺点
在大数据集上较慢
适用
数值型
标称型
案例
过会投票的模式
毒蘑菇相似特征
FP-growth算法
概念
基于Apriori
结合树模型建模
比Apriori快
优点
快于Apriori算法
缺点
实现困难
在某些数据集上性能会下降
适用
标称型
案例
从微博中发现共现词
新闻报道被查看的集合
特征工程
数学基础
微积分
导数/偏导数
分支主题
分支主题
概率论基础
协方差
中心极值定理
矩估计
决策树算法
单棵树
子主题
子主题
集成学习
bagging算法
随机森林
boosting算法
L1/L2正则化
凸函数
模型训练思考方式
确定问题
特征工程
设计<u>目标函数</u>(<u>模型</u>)
设计损失函数
均方误差(MSE)
子主题
子主题
设计优化方法
梯度下降算法
随机梯度下降
<b>微积分</b>
求偏导
泰勒级数
梯度
酉函数
监督学习
分类算法<br>
Logistic Regression
Logistic Regression模型
Softmax Regression
Factorization Machine
支持向量机
随机森林(Random Forest)
BP神经网络
KNN算法
回归算法
线性回归算法
目标函数(模型)
线性回归函数
损失函数
求误差平方和最小
优化算法
随机梯度下降
最小二乘法
逻辑回归算法
目标函数(模型)
损失函数
极大似然估计
对数似然
优化算法
随机梯度下降
牛顿法
L-BFGS
Softmax Regression算法
目标函数
损失函数
优化算法
岭回归和Lasso回归
CART树回归
概览
概念
机器学习是从数据中学习和提取有用的信息,不断提升机器的性能
算法
监督学习(Supervised Learning)
分类(Classification)
回归(Regression)
无监督学习(Unsupervised Learning)
聚类(Clustering)
半监督学习(Semi-Supervised Learning)
增强学习(Reinforcement Learning)
<b>优化算法</b>
梯度下降法(GD)
初始点
下降方向
步长
凸优化问题
<b>数理统计</b>
似然估计
极大似然估计
???
<b>损失函数</b>
负的Log似然函数(NLL)
子主题
<b>阈值函数</b>
Sigmoid函数
分支主题
子主题
项目实践
深度学习
AutoEncoder
卷积神经网络
推荐算法
协调过滤算法
基于矩阵分解的推荐算法
基于图的推荐算法
无监督学习
聚类算法
K-means
Mean Shift
DBSCAN
Lable Propagation
0 条评论
下一页