简要 机器学习知识框架
2021-04-01 14:43:24 1 举报
AI智能生成
简要 机器学习知识框架
作者其他创作
大纲/内容
概览
基本知识
机器学习是从数据中学习和提取有用的信息(规律和规模),不断提升机器的性能
预测类别
分类问题
输出变量为有限个离散变量
回归问题
输入输出变量均为连续变量
标注问题
输入输出变量均为变量序列
误差
(训练集)经验误差/训练误差
(新样本/测试集)泛化误差
偏差
度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
方差
度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
噪声
表达了在当前任务上任何学习算法所能达到的预期泛化误差的下界,刻画了学习问题本身的难度
模型评估方法
留出法
划分训练集、测试集且互斥,若干次随机划分重复试验
常将大约2/3~4/5的样本用于训练,剩余样本用于测试
交叉验证法(A/B Test)
划分与数据集分布一致的K个子集
K组训练/测试集,交叉验证
自助法
会引入估计偏差
调参与最终模型
算法
监督学习(Supervised Learning)
分类(Classification)
回归(Regression)
无监督学习(Unsupervised Learning)
聚类(Clustering)
半监督学习(Semi-Supervised Learning)
强化学习(Reinforcement Learning)
深度学习(Deep Learning)
迁移学习(Transfer Learning)
其他
集成学习
Bagging
随机森林
随机选择样本、随机选择特征
Boosting
XgBoost
AdaBoost
GBDT
累加所有树的结果
利用损失函数的负梯度去拟合(替代)残差,求一阶导
降维(无监督学习)
因子分析
多维尺度(Multi-Dimensional Scaling, MDS)
线性
主成分分析(PCA)
主成分回归(PCR)
SVD
非线性
流行学习(LLE)
核函数
深度学习
堆栈式自动编码器(Stacked Auto-encoders)
受限波尔兹曼机(Restricted Boltzmann Machine, RBN)
多层神经网络
深度卷积网络(Deep Convolutional Neural Network)
深度信念网络Deep Belief Networks(DBN)
半监督学习
图论推理算法
拉普拉斯支持向量机
监督学习
分类/回归混合
基于核的算法
支持向量机(Support Vector Machine, SVM)
线性可分
数据线性可分
硬间间隔最大化
数据近似线性可分
软间间隔最大化
非线性
径向基函数(Radial Basis Function ,RBF)
线性判别分析(Linear Discriminate Analysis ,LDA)
基于实例的算法
KNN算法
学习矢量量化(Learning Vector Quantization, LVQ)
决策树
决策树(分类)
ID3算法
改进算法
C4.5
基于Gini指数最小化的CART算法
决策树(回归)
基于最小二乘法/均方误差MSE最小化的CART算法
神经网络
感知器/单层神经网络
类似于逻辑回归,线性分类
多层感知器/两层神经网络
BP反向传播(反馈)
卷积神经网络CNN
非全连接网络
回归神经网络RNN
同层连接,处理序列数据,常用于预测
Hopfield网络
径向基函数网络(RBFN)
贝叶斯
贝叶斯分类器
朴素贝叶斯
高斯贝叶斯
贝叶斯
分类算法
逻辑回归 Logistic Regression
目标函数
损失函数
优化函数
随机梯度下降
牛顿法
L-BFGS
Softmax Regression
回归算法
线性回归算法
目标函数(模型)
线性回归函数
损失函数
构造:求均方误差(MSE)
优化函数
随机梯度下降
正规方程解
最小二乘法
Softmax Regression算法
模型训练思考方式
确定问题
特征工程
设计目标函数(模型)
设计损失函数
均方误差(MSE)
设计优化方法
梯度下降算法
随机梯度下降
无监督学习
聚类算法
1、相似性度量
距离/近邻度
闵可夫斯基距离
曼哈顿距离
q=1
欧氏距离
q=2
切比雪夫距离
q=无穷
马氏距离
增加了权重系数
编辑距离
相似系数
余弦相似度
皮尔逊相关系数
Jaccard相似系数
KL散度
核函数
超平面
2、聚类算法
基于质心/划分聚类(Partitional clustering)
K-means
基于层次聚类(Hierarchical clustering)
CURE
基于密度/密度聚类
DBSCAN
基于模型
基于概率模型
高斯混合模型
期望最大化EM
基于神经网络模型
对抗生成网络
自组织映射SOM
新发展
模糊聚类
基于图聚类
谱聚类
Affinity Propagation 近邻/仿射传播
关联规则学习
先验算法Apriori
Eclat算法
异常检测
概率统计
滑动平均法
3-Sigma
箱线图
基于模型
Z-score
假设数据是高斯分布
基于相似度
基于邻近度/距离
聚类
K-Means
KNN算法(有监督)
基于密度
DBSCAN聚类
LOF(Local Outlier Factor)
基于超平面
isolation forest
其他无监督学习
AutoEncoder
Random Cut Forest (RCF)
应用
自然语言处理NLP
文本
翻译
文本分类
分词
语音
语音识别/交互
图像处理
机器视觉
数据挖掘
推荐算法
协调过滤算法
基于矩阵分解的推荐算法
基于图的推荐算法
0 条评论
下一页