Python数据科学:技术详解与商业实践
2020-04-13 10:20:14 0 举报
AI智能生成
Python数据科学:技术详解与商业实践
作者其他创作
大纲/内容
11 分类器入门:最近邻域与朴素贝叶斯
11.1 KNN算法
11.1.1 KNN算法原理
11.1.2 在Python中实现KNN算法
11.2 朴素贝叶斯分类
11.2.1 贝叶斯公式
11.2.2 朴素贝叶斯分类原理
11.2.3 朴素贝叶斯的参数估计
11.2.4 在Python中实现朴素贝叶斯
12 高级分类器:支持向量机
12.1 线性可分与线性不可分
12.2 线性可分支持向量机
12.2.1 函数间隔和几何间隔
12.2.2 学习策略
12.2.3 对偶方法求解
12.2.4 线性可分支持向量机例题
12.3 线性支持向量机与软间隔最大化
12.4 非线性支持向量机与核函数
12.4.1 核函数
12.4.2 非线性支持向量机的学习
12.4.3 示例与Python实现
12.5 使用支持向量机的案例
13 连续变量的特征选择与转换
13.1 方法概述
13.2 主成分分析
13.2.1 主成分分析简介
13.2.2 主成分分析原理
13.2.3 主成分分析的运用
13.2.4 在Python中实现主成分分析
13.3 基于主成分的冗余变量筛选
13.4 因子分析
13.4.1 因子分析模型
13.4.2 因子分析算法
13.4.3 在Python中实现因子分析
14 客户分群与聚类
14.1 聚类算法概述
14.2 聚类算法基本概念
14.2.1 变量标准化与分布形态转换
14.2.2 变量的维度分析
14.3 聚类模型的评估
14.4 层次聚类
14.4.1 层次聚类原理
14.4.2 层次聚类在Python中的实现
14.5 基于划分的聚类
14.5.1 k-means聚类原理
14.5.2 k-means聚类的应用场景
14.5.3 在Python中实现k-means聚类
14.6 基于密度的聚类
14.6.1 详谈基于密度聚类
14.6.2 在Python中实现密度聚类
14.7 案例:通信客户业务使用偏好聚类
14.7.1 保持原始变量分布形态进行聚类
14.7.2 对变量进行分布形态转换后聚类
15 关联规则
15.1 关联规则
15.1.1 关联规则的一些概念
15.1.2 Apriori算法原理
15.1.3 在Python中实现关联规则
15.2 序列模式
15.2.1 序列模式简介与概念
15.2.2 序列模式算法
15.2.3 在Python中实现序列模式
16 排序模型的不平衡分类处理
16.1 不平衡分类概述
16.2 欠采样法
16.2.1 随机欠采样法
16.2.2 Tomek Link法
16.3 过采样法
16.3.1 随机过采样法
16.3.2 SMOTE法
16.4 综合采样法
16.5 在Python中实现不平衡分类处理
17 集成学习
17.1 集成学习概述
17.2 Bagging
17.2.1 Bagging算法实现
17.2.2 随机森林
17.3 Boosting
17.4 偏差(Bias)、方差(Variance)与集成方法
17.4.2 Bagging与Boosting的直观理解
18 时间序列建模
18.1 认识时间序列
18.2 效应分解法时间序列分析
18.3 平稳时间序列分析ARMA模型
18.3.1 平稳时间序列
18.3.2 ARMA模型
18.3.3 在Python中进行AR建模
18.4 非平稳时间序列分析ARIMA模型
18.4.1 差分与ARIMA模型
18.4.2 在Python中进行ARIMA建模
18.5 ARIMA方法建模总结
19 商业数据挖掘案例
19.1 个人贷款违约预测模型
19.1.1 数据介绍
19.1.2 业务分析
19.1.3 数据理解
19.1.4 数据整理
19.1.5 建立分析模型
19.1.6 模型运用
19.1.7 流程回顾
19.2 慈善机构精准营销案例
19.2.1 构造营销响应模型
19.2.2 构造客户价值预测模型
19.2.3 制订营销策略
19.2.4 案例过程回顾与不足
19.3 旅游企业客户洞察案例
19.3.2 数据预处理
19.3.3 使用k-means聚类建模
19.3.4 对各个簇的特征进行描述
19.4 个人3C产品精准营销案例
19.4.2 数据预处理
19.4.3 建模
19.4.4 模型评估
19.4.5 下一步建议
附录A 数据说明
1 数据科学家的武器库
1.1 数据科学的基本概念
1.2 数理统计技术
1.2.1 描述性统计分析
1.2.2 统计推断与统计建模
1.3 数据挖掘的技术与方法
1.4 描述性数据挖掘算法示例
1.4.1 聚类分析——客户细分
1.4.2 关联规则分析
1.5 预测性数据挖掘算法示例
1.5.1 决策树
1.5.2 KNN算法
1.5.3 Logistic回归
1.5.4 神经网络
1.5.5 支持向量机
1.5.6 集成学习
1.5.7 预测类模型讲解
1.5.8 预测类模型评估概述
2 Python概述
2.1 Python概述
2.1.2 Python与数据科学
2.1.3 Python2与Python3
2.2 Anaconda Python的安装、使用
2.2.1 下载与安装
2.2.2 使用Jupyter Notebook
2.2.3 使用Spyder
2.2.4 使用conda或pip管理第三方库
3 数据科学的Python编程基础
3.1 Python的基本数据类型
3.1.1 字符串(str)
3.1.2 浮点数和整数(float、int)
3.1.3 布尔值(Bool:True/False)
3.1.4 其他
3.2 Python的基本数据结构
3.2.1 列表(list)
3.2.2 元组(tuple)
3.2.3 集合(set)
3.2.4 字典(dict)
3.3 Python的程序控制
3.3.1 三种基本的编程结构简介
3.3.2 顺承结构
3.3.3 分支结构
3.3.4 循环结构
3.4 Python的函数与模块
3.4.2 Python的模块
3.5 Pandas读取结构化数据
3.5.1 读取数据
3.5.2 写出数据
4 描述性统计分析与绘图
4.1 描述性统计进行数据探索
4.1.1 变量度量类型与分布类型
4.1.2 分类变量的统计量
4.1.3 连续变量的分布与集中趋势
4.1.4 连续变量的离散程度
4.1.5 数据分布的对称与高矮
4.2 制作报表与统计制图
4.3 制图的步骤
5 数据整合和数据清洗
5.1 数据整合
5.1.1 行列操作
5.1.2 条件查询
5.1.3 横向连接
5.1.4 纵向合并
5.1.5 排序
5.1.6 分组汇总
5.1.7 拆分、堆叠列
5.1.8 赋值与条件赋值
5.2 数据清洗
5.2.1 重复值处理
5.2.2 缺失值处理
5.2.3 噪声值处理
5.3 RFM方法在客户行为分析上的运用
5.3.1 行为特征提取的RFM方法论
5.3.2 使用RFM方法计算变量
5.3.3 数据整理与汇报
6 数据科学的统计推断基础
6.1 基本的统计学概念
6.1.1 总体与样本
6.1.2 统计量
6.1.3 点估计、区间估计和中心极限定理
6.2 假设检验与单样本t检验
6.2.1 假设检验
6.2.2 单样本t检验
6.3 双样本t检验
6.4 方差分析(分类变量和连续变量关系检验)
6.4.1 单因素方差分析
6.4.2 多因素方差分析
6.5 相关分析(两连续变量关系检验)
6.5.1 相关系数
6.5.2 散点矩阵图
6.6 卡方检验(二分类变量关系检验)
6.6.1 列联表
6.6.2 卡方检验
7 客户价值预测:线性回归模型与诊断
7.1 线性回归
7.1.1 简单线性回归
7.1.2 多元线性回归
7.1.3 多元线性回归的变量筛选
7.2 线性回归诊断
7.2.1 残差分析
7.2.2 强影响点分析
7.2.3 多重共线性分析
7.2.4 小结线性回归诊断
7.3 正则化方法
7.3.1 岭回归
7.3.2 LASSO回归
8 Logistic回归构建初始信用评级
8.1 Logistic回归的相关关系分析
8.2 Logistic回归模型及实现
8.2.1 Logistic回归与发生比
8.2.2 Logistic回归的基本原理
8.2.3 在Python中实现Logistic回归
8.3 Logistic回归的极大似然估计
8.3.1 极大似然估计的概念
8.3.2 Logistics回归的极大似然估计
8.4 模型评估
8.4.1 模型评估方法
8.4.2 ROC曲线的概念
8.4.3 在Python中实现ROC曲线
9 使用决策树进行初始信用评级
9.1 决策树概述
9.2 决策树算法
9.2.1 ID3建树算法原理
9.2.2 C4.5建树算法原理
9.2.3 CART建树算法原理
9.2.4 决策树的剪枝
9.3 在Python中实现决策树
9.3.1 建模
9.3.2 模型评估
9.3.3 决策树的可视化
9.3.4 参数搜索调优
10 神经网络
10.1 神经元模型
10.2 单层感知器
10.3 BP神经网络
10.4 多层感知器的scikit-learn代码实现
0 条评论
下一页