Chapter 4 数据预处理
2018-10-10 15:54:33 1 举报
AI智能生成
《Python数据分析与挖掘实战》-第四章-数据预处理
作者其他创作
大纲/内容
数据集成
实体识别
同名异义
异名同义
单位不统一
冗余属性识别
同一属性多次出现
同一属性命名不一致导致重复
数据规约
属性规约
主成分分析
原始变量的n次观测数据矩阵
将数据矩阵按列进行中心标准化
求相关系数矩阵R
求R的特征方程
确定主成分个数m
计算m个相应的单位特征向量
计算主成分
python的函数
n_components
意义
类型
copy
类型
意义
whiten
意义
类型
数值规约
直方图
单值表示法
区间表示法
聚类
抽样
s个样本无放回简单随机抽样
s个样本有放回的简单随机抽样
聚类抽样
分层抽样
参数回归
简单线性模型
对数线性模型
数据清洗
缺失值处理
1.拉格朗日插值法
2.牛顿插值法
3.将缺失的函数值对用的点x代入插值多项式得到缺失值的近似值f(x)
异常值处理
异常值处理前需要先进行分析
很多情况下,要先分析异常值的出现原因,再判断异常值是否应该舍弃
如果是正确的数据,可以直接在具有异常值的数据集上进行建模
数据变换
简单函数变换
平方
开方
取对数
差分运算
规范化
最小-最大规范化(离差标准化)
max为样本数据最大值,min为样本数据最小值,max-min为数据极差
零-均值规范化(标准差标准化)
原始数据均值,原始数据标准差
小数定标规范化
连续属性离散化
1.离散化的过程
确定分类数
如何将属性值映射到分类值
2.常用的离散化方法
等宽法
将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定
等频法
人为规定划分区间的个数
基于聚类分析的方法
使用聚类算法(K-Means)对数据进行聚类
将聚类得到的簇进行处理
合并一个簇的连续属性值做统一标记
属性构造
小波变换
特点
多分辨率
小波变换的特征提取方法
小波基函数
平均值为0,常用有Haar小波基,db系列小波基
小波变换
伸缩平移变换,a为伸缩因子,b为平移因子
任意函数的连续小波变换
多尺度空间能量分布特征提取方法
信号f(t)的二进小波分解
信号的总量
构造特征向量
python主要数据预处理函数
interploate
功能
使用格式
unique
功能
使用格式
isnull/notnull
功能
使用格式
random
功能
使用格式
PCA
功能
使用格式
0 条评论
下一页