首页  思维导图  详情

机器深度学习知识框架笔记总结

2022-10-19 17:53:25   0  举报





AI智能生成

机器深度学习知识框架笔记总结

机器深度学习

机器深度

深度学习

机器学习

作者其他创作

大纲/内容

降维

好处

使数据集更易使用

降低很多算法的计算开销

去除噪声

使结果易懂

PCA Principal Component Analysis 主成分分析

概念

以方差的大小来决定新的维度

优点

降低数据的复杂性

识别最重要的多个特征

缺点

不一定需要

可能损失有用信息

适用

数值型

案例

半导体制造数据降维

SVD Singular Value Decomposition 奇异值分解

概念

从噪声数据中抽取相关特征

还是不懂！

矩阵分解

m行n列矩阵分解成三个矩阵相乘，分别m行m列，m行n列，n行n列

中间那个m行n列矩阵只有对角元素，且对角元素从大到小排列

对角元素称为奇异值

在某个奇异值的数据（r个）之后，其他奇异值都置为0

数据集中只有r个重要特征

优点

简化数据

去除噪声

提高算法结果

缺点

数据的转换可能难于理解

适用

数值型

案例

隐性语义索引 LSI/LSA

抽取文档中的概念

解决同义词问题

推荐系统

先利用SVD构建主题空间

再在该空间下计算相似度

图像压缩

保留奇异值

回归

线性回归

优点

易于理解

计算不复杂

缺点

对非线性数据拟合不好

适用

数值型

标称型

数据特征比样本多

岭回归

lasso

前向逐步回归

树回归

概念

对数据进行二元切分

节点为数值或线性函数

优点

可以对复杂和非线性数据建模

缺点

结果不易理解

适用

数值型

标称型

监督学习

k-近邻算法 kNN

概念

采用测量不同特征值之间的距离方法进行分类

优点

精度高

对异常值不敏感

无数据输入假定

缺点

计算复杂度高

空间复杂度高

适用

数值型

标称型

案例

约会网站效果匹配

手写识别

决策树

概念

按特征值划分法

二元划分法

划分数据集原则

信息熵entropy

信息增益information gain最大化

优点

计算复杂度不高

输出结果易于理解

对中间值的缺失不敏感

可以处理不相关特征数据

缺点

可能会过度匹配

适用

数值型

标称型

案例

眼部状况和适配的隐形眼镜类型

朴素贝叶斯

概念

计算某一点落在不同群落里的概率

利用条件概率

假定特征相互独立

优点

在数据较少情况下仍然有效

可以处理多类别问题

缺点

对输入数据的准备方式较敏感

适用

标称型

案例

垃圾邮件检测

Logistic回归

概念

划分两个数据集之间的分界线，类似回归

梯度下降算法

随机梯度下降

减少计算量

优点

计算代价不高

易于理解和实现

缺点

容易欠拟合

分类精度可能不高

适用

数值型

标称型

案例

从病症预测死亡率

支持向量机 SVM

概念

将数据映射到高维空间更容易被分类

核函数

将数据映射到高维空间

径向基函数

流行核函数

优点

泛化错误率低

计算开销不大

结果易理解

缺点

对参数调节和核函数的选择敏感

原始分类器不加修改仅适用于处理二类问题

适用

数值型

标称型

案例

手写识别

元算法 AdaBoost

概念

不同算法集成

同一算法不同设置集成

不同数据集不同分类器

性能度量

正确率

预测为正例的样本中真正正例的比例

召回率

预测为正例的真实正例占真实正例的比例

无监督学习

K-均值聚类

概念

设定簇个数

随机确定初始簇心

寻找各点最近的簇心

避免收敛到局部最小

度量效果

SSE误差平方和

后处理

将最大SSE簇拆分

合并

最近质心

使SSE增加最小的两个质心

二分K-均值

有一个簇不断一分为二

优点

易实现

缺点

可能收敛到局部最小值

在大数据集上收敛较慢

适用

数值型

案例

对地图上的点进行聚类

Apriori算法

概念

关联分析

频繁项集

关联规则

优点

易实现

缺点

在大数据集上较慢

适用

数值型

标称型

案例

过会投票的模式

毒蘑菇相似特征

FP-growth算法

概念

基于Apriori

结合树模型建模

比Apriori快

优点

快于Apriori算法

缺点

实现困难

在某些数据集上性能会下降

适用

标称型

案例

从微博中发现共现词

新闻报道被查看的集合

特征工程

数学基础

微积分

导数/偏导数

分支主题

概率论基础

协方差

中心极值定理

矩估计

决策树算法

单棵树

子主题

集成学习

bagging算法

随机森林

boosting算法

L1/L2正则化

凸函数

模型训练思考方式

确定问题

特征工程

设计目标函数（模型）

设计损失函数

均方误差（MSE）

子主题

设计优化方法

梯度下降算法

随机梯度下降

微积分

求偏导

泰勒级数

梯度

酉函数

监督学习

分类算法

Logistic Regression

Logistic Regression模型

Softmax Regression

Factorization Machine

支持向量机

随机森林（Random Forest）

BP神经网络

KNN算法

回归算法

线性回归算法

目标函数（模型）

线性回归函数

损失函数

求误差平方和最小

优化算法

随机梯度下降

最小二乘法

逻辑回归算法

目标函数（模型）

损失函数

极大似然估计

对数似然

优化算法

随机梯度下降

牛顿法

L-BFGS

Softmax Regression算法

目标函数

损失函数

优化算法

岭回归和Lasso回归

CART树回归

概览

概念

机器学习是从数据中学习和提取有用的信息，不断提升机器的性能

算法

监督学习(Supervised Learning)

分类（Classification）

回归（Regression）

无监督学习(Unsupervised Learning)

聚类（Clustering）

半监督学习(Semi-Supervised Learning)

增强学习(Reinforcement Learning)

优化算法

梯度下降法（GD）

初始点

下降方向

步长

凸优化问题

数理统计

似然估计

极大似然估计

？？？

损失函数

负的Log似然函数（NLL）

子主题

阈值函数

Sigmoid函数

分支主题

子主题

项目实践

深度学习

AutoEncoder

卷积神经网络

推荐算法

协调过滤算法

基于矩阵分解的推荐算法

基于图的推荐算法

无监督学习

聚类算法

K-means

Mean Shift

DBSCAN

Lable Propagation

 收藏

立即使用

网络因特网互联网知识点学习笔记总结

 收藏

立即使用

计算机网络基础学习知识框架

 收藏

立即使用

网络经济学知识点学习框架笔记

 收藏

立即使用

数据中台学习培训笔记总结

PO_830648

职业：暂无

去主页





0 条评论

下一页

为你推荐

查看更多

