数据挖掘框架
2023-01-03 15:46:05 2 举报
AI智能生成
机器学习数据挖掘框架
作者其他创作
大纲/内容
1.定义问题
背景
需要解决的问题
实现过程
运用的算法
商业价值
2.收集数据
3.数据准备
导入库
数据读取与预览
数据清洗
校正:异常值
填充:缺失值
均值/中位数/众数填充
前后数据填充
机器学习算法填充
创建:新的分析功能
转换:将分类数据转换为虚拟变量进行数据分析
划分训练集和测试集
4.探索性数据分析
检查数据
是否有缺失值
是否有异常值
是否有重复值
数据分布是否均衡
是否需要抽样
变量是否需要转换
是否需要增加新的特征
使用描述统计量和图表对数据进行描述(数据可视化)
连续变量:常见的统计量有:平均值、中位数、众数、最小值、最大值、四分位数、标准差等。使用频数分布表、直方图、箱线图等。
无序性离散变量:各个变量出现的频数和占比;使用频数分布表、柱形图、条形图、茎叶图、饼图等;
有序性离散变量:各个变量出现的频数和占比;使用频数分布表,堆积柱形图,堆积条形图等
考察变量之间的关系
离散变量
连续变量
5.数据建模
机器学习
监督学习:通过向其提供包含正确答案的训练数据集来训练模型
无监督学习:使用不包含正确答案的训练数据集训练模型
强化学习:前两者的混合体,模型没有立即给出正确的答案,而是在一系列事件之后加强学习
机器学习算法
分类
回归
聚类
降维
创建模型
训练模型
评估模型性能
交叉验证模型性能
超参数调整模型
6.验证和实施
7.优化与策略
使用特征选择优化模型
0 条评论
下一页