3.数据处理
2019-11-27 10:08:21 0 举报
AI智能生成
数据预处理(数据清洗、数据集成、数据转换、数据消减)
作者其他创作
大纲/内容
问题数据分类
噪声数据
指数据中存在着错误或异常(偏离期望值)的数据
不完整数据
指数据内涵出现不一致情况(eg.同一部门编码在不同表中出现不同值)
不一致数据
指感兴趣的属性没有值
数据预处理方法
数据清洗(data cleaning)
指消除数据中存在的噪声及纠正其不一致的错误
数据集成( data integration )
将来自多个数据源的数据合并到一起构成一个完整的数据集
数据转换( data transformation )
指将一种格式的数据转换为另一种格式的数据
数据消减( data reduction )
通过删除冗余特征或聚类消除多余数据
(一)数据清洗
1.遗漏数据处理
忽略该条记录
手工填补遗漏值
利用缺省值填补遗漏值
利用均值填补遗漏值
利用同类别均值填补遗漏值
尤其在分类挖掘时使用
利用最可能的值填补遗漏值
可利用回归分析、贝叶斯公式、决策树推断出该条记录特定属性的最大可能的取值
2.噪声数据处理
(1)bin方法
利用被平滑点的近邻点,对一组排序数据进行平滑
(2)聚类方法
发现聚类集合之外的异常点
(3)人机结合检查方法
(4)回归方法
利用拟合函数对数据进行平滑
*许多数据平滑方法同时也是数据消减方法,eg.bin方法
3.不一致数据处理
手工解决
程序批量解决
(二)数据集成与转换
1.数据集成
数据集成操作
将来自多个数据源的数据结合在一起并形成一个统一数据集合
数据集成的问题处理
(1)模式集成问题
实体识别、名称不一致,通过元数据定义理解
(2)冗余问题
若一个属性可以从其他属性中推演出来,那这个属性就是冗余属性
公式
rA,B>0:正相关;rA,B=0,相互独立;rA,B<0,负相关
(3)数据值冲突检测与消除
表示差异、比例尺不同、编码差异导致的语义差异等
2.数据转换
数据转换操作
就是将数据转换或归并以构成一个适合数据挖掘的描述形式
数据转换的处理
(1)平滑处理
(2)合计处理
(3)数据泛化处理
(4)规格化
1️⃣ 最大最小规格化方法
2️⃣ 零均值规格化方法
(5)属性构造
(三)数据消减
数据消减的主要策略
1.数据立方合计
构造数据立方
2.维数消减
用于检测和消除无关、弱相关或冗余的属性或维
3.数据压缩
利用编码技术压缩数据集的大小
4.数据块消减
利用更简单的数据表达式(如 参数模型、非参数模型(聚类、采样、直方图)等)来取代原有数据
5.离散化与概念层次生成
1.数据立方合计
2.维数消减
逐步添加法
空属性集开始,逐步添加最优,至无法找出最优/一个阙值
逐步消减法
全属性集开始,逐步减去最差,至无法找出最差/一个阙值
添加和消减结合法
决策树归纳法
不在初始决策树上的为无关属性
3.数据压缩
4.数据块消减
0 条评论
下一页