随机森林-Spark
2018-06-05 09:33:35 46 举报
随机森林-Spark
作者其他创作
大纲/内容
12. 构建随机森林
8. 初始化树
4. 读取数据生成RDD对象,分成训 练集和测试集 (使用LibSVM格式)
6.1. 数据特征离散化6.2. 数据特征抽样
17. 结束
直到所有的特征都被训练完
5. 对参数进行封装(Strategy)
15. 将测试数据集带入决策树生成 结果
14. 加载模型
7. 样本抽取(有放回的抽取)
16. 将每棵决策树的结果合并起来 (投票策略,形成最终结果)
2. 数据集
11. 对node进行分裂处理,构造左 右孩子节点getNodeToFeatures
1. 算法开始
10. nodeToBestSplits计算信息增 益,选择其中增益最大的特征 作为决策树的节点
13. 保存模型13.1. 保存模型参数13.2. 保存树
9. 对每棵树进行统计,9.1. 局部统计9.2. 全局统计
3. 初始化Spark
收藏
0 条评论
下一页