数据与数据预处理
2023-03-05 21:03:36 54 举报
AI智能生成
介绍数据和数据预处理的相关知识,包括数据的概念与内容、数据属性与数据集、数据预处理。
作者其他创作
大纲/内容
数据的概念与内容
数据是指对客观事件进行记录并可以鉴别的符号,是信息的表现形式和载体。
数据所指代的并不是狭义上的数字,还可以包括符号、文字、语音、图形和视频等。
计算机中,数据是指所有能输入到计算机中并被计算机程序处理的符号的介质的总称,
是能输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量的通称。
数据所指代的并不是狭义上的数字,还可以包括符号、文字、语音、图形和视频等。
计算机中,数据是指所有能输入到计算机中并被计算机程序处理的符号的介质的总称,
是能输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量的通称。
数据分类
实时数据与历史数据
实时数据是在某事发生、发展过程中的同一事件中获得的数据,表示客观事务或属性未经加工的原始素材
随着时间的推移和主题的变化,实时数据不再具有实时性,则成为历史数据。
事务数据和时序数据
是一种记录类型的数据,每个记录是一个项的集合。
时间序列数据,可以认为是统一按照时间顺序记录的数据列,是事务数据的扩充。
图形数据和图像数据
图形数据是以图形为对象形式的表示,主要包括地图数据、具有图形对象的数据、带有对象直接联系的数据。
图像数据是各像素灰度值的集合,灰度值用数值表示。
主题数据和全局数据
主题数据是按照主题在数据仓库中提取出的数据集合。
全局数据的数据仓库中所有主题数据的集合。
空间数据
是指用来表示空间中物体的位置、形状、大小及其分布特征等诸多方面信息的数据。
序列数据与流数据
序列数据记录各个试题的顺序
流数据,是一种顺序、大量、快速、连续流进和流出的数据序列
特点:
1)数据实时到达;
2)数据到达次序独立,不受应用系统所控制;
3)数据规模宏大且不能与之其最大值;
4)数据一经处理,除非特意保存,否则不能再次被取出处理,或者再次提取数据代价昂贵。。
1)数据实时到达;
2)数据到达次序独立,不受应用系统所控制;
3)数据规模宏大且不能与之其最大值;
4)数据一经处理,除非特意保存,否则不能再次被取出处理,或者再次提取数据代价昂贵。。
数据属性与数据集
数据属性
标称
标称属性的值仅仅是不同的名称。
序数
序数属性的值可以为确定对象的顺序提供足够的信息。
区间
区间属性的值之间的差是有意义的,即存在测量单位,如温度,日期等。
比率
比率属性的值之间的差和比值都是有意义的,如绝对温度、年龄、长度、考试分数。
数据集
维度
指数据集中的对象具有的属性的个数的总和。
稀疏性
是指在数据集中有意义的数据的多少。
分辨率
可以在不同的分辨率或者力度小得到数据,且在不同的分辨率下对象的数据也不同。
数据预处理
数据预处理概述
不一致
重复
不完整
有噪声
维度高
数据清洗
空缺数值的清洗
忽略元组
人工填写空缺值
全局变量填充
平均值、最大值、最小值填充
同类样本均值、中位数填充
预测填充
删除缺失值
属性的选择与处理
赋予属性值明确的含义
统一属性值编码
处理唯一属性
去除无关属性
去除可忽略字段
合理选择关联字段
噪声数据的清洗
分箱
统一权重法(等深分箱)
统一区间法(等宽分箱)
最小熵分箱法
自定义区间分箱
回归
聚类
计算机检查和人工检查相结合
数据集成
模式匹配
数值冲突
数据名不同
属性数据类型不同
属性数据格式不同
字段单位不同
字段取值范围不同
数据冗余
卡方检验
相关系数
数据变换
光滑
聚集
数据泛化
规范化
最小-最大规范化
零-均值规范化
小数定标规范化
数据归约
数据立方体
维归约
逐步向前选择
逐步向后删除
向前选择和向后删除结合
判定树归纳
数据压缩
无损压缩
有损压缩
小波变换
主成分分析
数值规约
直方图
聚类
抽样
无放回简单随机抽样
有放回随机抽样
聚类抽样
分层抽样
回归
离散化和概念分层
分箱
直方图分析
基于熵的离散化
聚类分析
根据直观划分离散化
0 条评论
下一页