走进AI(二) | 机器如何学习?
2024-01-04 16:11:40 0 举报
AI智能生成
机器如何学习?
作者其他创作
大纲/内容
学习算法
解构算法:y、X、f(X,p)、loss、g(p)
算法演进:统计类算法 -> 深度学习算法
统计类算法:轻模型,重特征
经典机器学习方法
线性模型扩展-Lasso:保留了传统线性模型,但限制了参数大小,从而达到限制特征数量的目的。
树模型:梯度增强决策树>随机森林>决策树
决策树:按照分组规则(特征和阈值)将数据集分组,分组目标:组内差异小,组间差异大。 - 简单高效的非线性学习器
随机森林:同一个数据集重复采样获取多个样本,并行训练多个(过拟合的)模型,取平均结果降低方差。- 并行的种大树
梯度增强决策树(GBDT):大量弱模型,串行地缓慢地修正(学习速度一般越小越好),彼此叠加为最终模型。 - 串行的种很多小树
神经网络:在线性模型基础上增加隐藏层(节点中包含非线性的激活函数),从而引入非线性。
深度学习:重模型,轻特征
PyTorch 深度学习框架
算法开发
机器学习框架
面对挑战
可预测性:数据噪音越大越不可学习;数据量越小越不可学习
过拟合:在拟合过程中掺入了过多的数据噪声
规律
模型复杂度:越复杂,越容易过拟合;
数据量:越小,越容易过拟合;
3种过拟合的情况
增加特征 - 变量选择正则化解决
增加模型结构复杂度 - 随机森林、梯度增强决策树等模型解决
增加模型数量 - 交叉验证解决
联系现实:迷信、赌场、成功秘诀...
时间稳定性:是否随时间变化
数据范围&颗粒度划分:个性 vs 共性,目前尝试通过“预训练+微调”的架构来解决
特征时效性:往后看和往前看的区别
总结
数据是算法效果的上限
深度学习自动感知梯度,进而帮助寻求问题最优解。梯度就是没做好的地方
0 条评论
下一页