机器学习
2020-11-20 13:51:49 0 举报
AI智能生成
机器学习总结
作者其他创作
大纲/内容
数据比算法更重要
数据挖掘
1.获取数据
2.数据预处理
从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程
目的:让数据适应模型,匹配模型的需求
数据无量纲化
可以是线性,和非线性
中心化处理
本质:让所有记录减去一个固定值,既让数据样本数据平移到某个位置
MinMaxScaler有一个重要参数feature_range,控制我们希望把数据压缩到的范围,默认是[0,1]
缩放处理
本质:通过除以一个固定值,将数据固定在某个范围之中,取对数也是一种缩放处理
特征工程
提取特征及创造特征。创造特征经常用降维算法
数据清洗
pandas
DecisionTreeClassifier
重要参数
criterion 是用来决定不纯度的计算方法的。
画树
graphviz
feature_importances_
剪枝
max_depth
min_samples_leaf & min_samples_split
max_feature&min_impurity_decrease
max_feature限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃
min_impurity_derease限制信息增益的大小,设置信息增益小于设定值则分枝不会发生(0.19版本之前使用)
用超参数曲线来判断每个参数填写什么值,超参数用来衡量不同超参数取值下模型的表现的线
接口
fit clf = clf.fit(Xtrain,Ytrain)
score score = clf.score(Xtest,Ytest)
apply clf.apply(Xtest)
predict clf.predict(Xtest))
核心问题
1.如何找出正确的特征来进行提问
每次分枝时,对所有特征进行不纯度计算,选取不纯度最低的特征进行分枝
分类树不纯度用gini和信息熵来衡量
回归树用MSE均方误差来衡量
2.树生长到什么时候停下
集成算法
算法
装袋法(Bagging)
核心:构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估器的结果
代表模型:随机森林
n_estimators:基评估器的数量,值越大,模型的效果往往越好。到达一定程度不再增加 (越大需要的计算量和内存越大 )
提升法(Boosting)
基评估器是相关的,是按顺序一一构建的,每次预测完评估对预测错误的样本增加权重,增强学习
代表模型:Adaboost、梯度提升树
stacking
调参
第一步,找目标 比如对随机森林来说,提升模型在未知数据上的准确率
第二步,思考 模型在未知数据上的准确率受什么因素影响
max_depth
一般根据数据大小进行试探,小数据一般使用1~20,大数据一般尝试30~50 甚至更多
更应该画出学习曲线,来观察深度对魔性的影响
更应该画出学习曲线,来观察深度对魔性的影响
0 条评论
下一页