Apache Spark机器学习
2020-04-17 10:17:39 0 举报
AI智能生成
Apache Spark机器学习
作者其他创作
大纲/内容
7 基于Spark的产品推荐
7.1 基于Apache Spark的产品推荐引擎
7.1.1 例子
7.1.2 基于Spark平台的SPSS
7.2 产品推荐方法
7.2.1 协同过滤
7.2.2 编程准备
7.3 基于SPSS的数据治理
7.4 模型估计
7.5 模型评价
7.6 产品推荐部署
7.7 小结
8 基于Spark的学习分析
8.1 Spark流失预测
8.1.1 例子
8.1.2 Spark计算
8.2 流失预测方法
8.2.1 回归模型
8.2.2 决策树
8.3 特征准备
8.3.1 特征开发
8.3.2 特征选择
8.4 模型估计
8.5 模型评价
8.5.1 快速评价
8.5.2 混淆矩阵和错误率
8.6 结果解释
8.6.1 计算干预影响
8.6.2 计算主因子影响
8.7 部署
8.7.1 规则
8.7.2 评分
8.8 小结
9 基于Spark的城市分析
9.1 Spark服务预测
9.1.1 例子
9.1.2 Spark计算
9.1.3 服务预测方法
9.1.4 回归模型
9.1.5 时间序列建模
9.2 数据和特征准备
9.2.1 数据合并
9.2.2 特征选择
9.3 模型估计
9.3.1 用Zeppelin notebook实现Spark
9.3.2 用R notebook实现Spark
9.4 模型评估
9.4.1 使用MLlib计算RMSE
9.4.2 使用R语言计算RMSE
9.5 结果解释
9.5.1 最大影响因素
9.5.2 趋势可视化
9.6 小结
10 基于Spark的电信数据学习
10.1 在Spark平台上使用电信数据
10.1.1 例子
10.1.2 Spark计算
10.2 电信数据机器学习方法
10.2.1 描述性统计和可视化
10.2.2 线性和逻辑回归模型
10.2.3 决策树和随机森林
10.3 数据和特征开发
10.3.1 数据重组
10.3.2 特征开发和选择
10.4 模型估计
10.5 模型评估
10.5.1 使用MLlib计算RMSE
10.5.2 使用R语言计算RMSE
10.5.3 使用MLlib和R语言计算混淆矩阵与错误率
10.6 结果解释
10.6.1 描述性统计和可视化
10.6.2 最大影响因素
10.6.3 特别的洞见
10.6.4 趋势可视化
10.7 模型部署
10.7.1 告警发送规则
10.7.2 为流失和呼叫中心呼叫情况进行用户评分
10.7.3 为购买倾向分析进行用户评分
10.8 小结
11 基于Spark的开放数据建模
11.1 Spark用于开放数据学习
11.1.1 例子
11.1.2 Spark计算
11.1.3 评分和排名方法
11.1.4 聚类分析
11.1.5 主成分分析
11.1.6 回归模型
11.1.7 分数合成
11.2 数据和特征准备
11.2.1 数据清洗
11.2.2 数据合并
11.2.3 特征开发
11.2.4 特征选择
11.3 模型估计
11.3.1 基于Spark的SPSS分析:SPSS Analytics Server
11.3.2 模型评价
11.3.3 用MLlib计算RMSE
11.3.4 用R语言计算RMSE
11.4 结果解释
11.4.1 排名比较
11.4.2 最大影响因素
11.5 部署
11.5.1 发送告警规则
11.5.2 学区排名评分
11.6 小结
1 Spark机器学习简介
1.1 Spark概述和技术优势
1.1.1 Spark概述
1.1.2 Spark优势
1.2 在机器学习中应用Spark计算
1.3 机器学习算法
1.4 MLlib
1.5 Spark RDD和DataFrame
1.5.1 Spark RDD
1.5.2 Spark DataFrame
1.5.3 R语言DataFrame API
1.5.4 机器学习框架、RM4E和Spark计算
1.5.5 机器学习框架
1.5.6 RM4E
1.5.7 Spark计算框架
1.6 机器学习工作流和Spark pipeline
1.7 机器学习工作流示例
1.8 Spark notebook简介
1.8.1 面向机器学习的notebook方法
1.8.2 Spark notebook
1.9 小结
2 Spark机器学习的数据准备
2.1 访问和加载数据集
2.1.1 访问公开可用的数据集
2.1.2 加载数据集到Spark
2.1.3 数据集探索和可视化
2.2 数据清洗
2.2.1 处理数据不完备性
2.2.2 在Spark中进行数据清洗
2.2.3 更简便的数据清洗
2.3 一致性匹配
2.3.1 一致性问题
2.3.2 基于Spark的一致性匹配
2.3.3 实体解析
2.3.4 更好的一致性匹配
2.4 数据集重组
2.4.1 数据集重组任务
2.4.2 使用Spark SQL进行数据集重组
2.4.3 在Spark上使用R语言进行数据集重组
2.5 数据集连接
2.5.1 数据连接及其工具——Spark SQL
2.5.2 Spark中的数据集连接
2.5.3 使用R语言数据表程序包进行数据连接
2.6 特征提取
2.6.1 特征开发的挑战
2.6.2 基于Spark MLlib的特征开发
2.6.3 基于R语言的特征开发
2.7 复用性和自动化
2.7.1 数据集预处理工作流
2.7.2 基于Spark pipeline的数据集预处理
2.7.3 数据集预处理自动化
2.8 小结
3 基于Spark的整体视图
3.1 Spark整体视图
3.1.1 例子
3.1.2 简洁快速的计算
3.2 整体视图的方法
3.2.1 回归模型
3.2.2 SEM方法
3.2.3 决策树
3.3 特征准备
3.3.1 PCA
3.3.2 使用专业知识进行分类分组
3.3.3 特征选择
3.4 模型估计
3.4.1 MLlib实现
3.4.2 R notebook实现
3.5 模型评估
3.5.1 快速评价
3.5.2 RMSE
3.5.3 ROC曲线
3.6 结果解释
3.7 部署
3.7.1 仪表盘
3.7.2 规则
3.8 小结
4 基于Spark的欺诈检测
4.1 Spark欺诈检测
4.1.1 例子
4.1.2 分布式计算
4.2 欺诈检测方法
4.2.1 随机森林
4.2.2 决策树
4.3 特征提取
4.3.1 从日志文件提取特征
4.3.2 数据合并
4.4 模型估计
4.4.1 MLlib实现
4.4.2 R notebook实现
4.5 模型评价
4.5.1 快速评价
4.5.2 混淆矩阵和误报率
4.6 结果解释
4.7 部署欺诈检测
4.7.1 规则
4.7.2 评分
4.8 小结
5 基于Spark的风险评分
5.1 Spark用于风险评分
5.1.1 例子
5.1.2 Apache Spark notebook
5.2 风险评分方法
5.2.1 逻辑回归
5.2.2 随机森林和决策树
5.3 数据和特征准备
5.4 模型估计
5.4.1 在Data Scientist Workbench上应用R notebook
5.4.2 实现R notebook
5.5 模型评价
5.5.1 混淆矩阵
5.5.2 ROC分析
5.5.3 Kolmogorov-Smirnov检验
5.6 结果解释
5.7 部署
5.8 小结
6 基于Spark的流失预测
6.1 Spark流失预测
6.1.1 例子
6.1.2 Spark计算
6.2 流失预测的方法
6.2.1 回归模型
6.2.2 决策树和随机森林
6.3 特征准备
6.3.1 特征提取
6.3.2 特征选择
6.4 模型估计
6.5 模型评估
6.6 结果解释
6.7 部署
6.7.1 评分
6.7.2 干预措施推荐
6.8 小结
0 条评论
下一页