数据挖掘概念与技术
2019-08-01 14:02:07 0 举报
AI智能生成
数据挖掘概念与技术(根据西南财经大学大数据管理考研817数据挖掘专业课考纲整理)
作者其他创作
大纲/内容
数据挖掘概述
数据挖掘概念
从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息储存库或动态流入系统的数据
从数据中挖掘知识、数据中的知识发现(KDD)
知识发现过程
(1)数据清理:消除噪声和删除不一致数据
(2)数据集成:多种数据源可以组合在一起
(3)数据选择:从数据中提取与分析与任务相关的数据
(4)数据变换:通过汇总和聚集操作,把数据变换和统一成适合挖掘的形式
(5)数据挖掘:基本步骤,使用智能方法提取数据模式
(6)模式评估:根据某种兴趣度量,识别代表知识的真正有趣的模式
(7)知识表示:使用可视化和知识表示技术,向用户提供可挖掘的知识
数据收集和数据库创建 (20世纪60年代或更早) 原始文件处理
数据库管理系统(20世纪70年代-80年代初期)
高级数据库系统(20世纪80年代中期-现在)
高级数据分析(20世纪80年代后期-现在)
数据挖掘的数据类型
数据库系统
组成
内部相关的数据(数据库)
管理和存取数据的软件程序
定义数据库结构和数据储存,说明和管理并发、共享或分布式数据访问,面对系统瘫痪和未授权的访问,确保信息的一致性和安全性
关系数据库是表的汇集,每个表都被赋予一个唯一的名字
关系表中每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述
每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)
通常为关系数据库构建语义数据模型,如实体—联系(ER)数据模型
数据仓库
数据仓库是一个从多个数据源收集信息的信息储存库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
事务数据
一般地,事务数据库的每个记录代表一个事务,如顾客的一次购物,一个航班订票。一个事务包含一个唯一的事务标识号(TransID),以及一个组成事务的项(如购买的商品)的列表。事务数据库可能有一些与之相关的附加表,包含事务的其他信息,如商品描述。
其他类型的数据
时间相关或序列数据(历史记录、时间序列数据)、数据流(视频监控,它们连续播放)、空间数据(地图)、工程设计数据(建筑数据、集成电路)、超文本和多媒体数据(文本、图像)、图和网状数据(如社会信息网络)、万维网、特殊语义(次序、音视频内容、连接性)以及挖掘具有丰富结构和语义的模式
数据挖掘功能
(1)特征化与区分
数据特征化:一般地汇总所研究类(目标类)的数据
基于统计度量和图的简单数据汇总
OLAP上卷
面向属性的归纳技术
数据区分:将目标类与一个或者多个比较类(对比类)进行比较
通过区分规则进行比较度量
(2)频繁模式
频繁项集
频繁子序列(序列模式)
频繁子结构
(3)关联和相关性挖掘
单维关联规则:包含单个谓词的关联规则
多维关联规则:涉及多个属性或谓词的关联
(4)分类与回归
分类
概念:找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标点
方法
分类规则(IF-THEN规则)
决策树:类似于流程图的树结构、其中每个节点代表一个属性值上的测试,每个分支代表测试的一个结果,而树叶代表类或类分布
数学公式
类似于神经元的处理单元,单元之间加权连接
朴素贝叶斯分类、支持向量机、K最邻近分类
回归:用来预测缺失的或难以获得的数值数据值,也包含基于可用数据的分布趋势识别。
相关分析在分类和回归之前进行,它试图识别分类和回归过程显著相关的属性
(5)聚类分析
概念:对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。对象的簇这样形成,使得相比之下在同一个簇中的对象具有很高的相似性,而与其他簇中的对象很不相似。所形成的每个簇都可以看作一个对象类,由它可以导出规则。聚类也便于分类化形成,即将观测组织成类分层结构,把类似的事件组织在一起。
(6)离群点分析
概念:找出数据集中与数据的一般行为或模型不一致的数据对象
统计与数据挖掘
统计学研究数据的收集、分析、解释和表示,数据挖掘与统计学有天然的联系。
统计模型是一组数学函数、它们用随机变量及其概率分布刻画目标类对象的行为
(1)统计模型可以是数据挖掘任务的结果,数据挖掘任务也可以建立在统计模型之上,于是,在大数据集中挖掘模式时,数据挖掘过程可以使用该模型来帮助识别数据中的噪声和缺失值。
(2)统计学研究开发一些数据和统计模型进行预测和预报的工具,对于从数据中挖掘各类模式,以及理解产生和影响这些模式的潜在机制,统计学是有用的。
(3)统计方法也可以用来验证数据挖掘结果,例如:建立分类或预测模型之后,应该使用统计假设检验来验证模型。
在数据挖掘中使用统计方法并不简单,如何把统计学方法用于大型数据集是一个巨大的挑战,许多统计学方法都有很高的计算复杂度。
机器学习
概念:计算机如何基于数据学习(或提高他们的性能),主要研究领域是计算机基于数据自动地学习识别复杂的模式,并做出智能的决断。
类型
监督学习:类似于分类,学习中的监督来自训练数据集中标记的实例
无监督学习:类似于聚类,输入额实例没有标记
半监督学习:在学习模型时,使用标记的和未标记的实例
主动学习:让用户在学习过程中扮演主动角色
对于分类和聚类任务,机器学习研究通常关注模型的准确率。除准确率以外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的办法,开发新的、非传统的方法。
数据挖掘应用领域:商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆和数字政府
数据挖掘主要问题
挖掘方法
挖掘各种新的知识类型
挖掘多维空间中的知识
数据挖掘——跨学科的努力
提升网络环境下的发现能力
处理不确定性数据、噪声或不完全数据
模式评估和模式约束指导的挖掘
用户界面
交互挖掘
结合背景知识
特定的数据挖掘和数据挖掘查询语言
数据挖掘结果的表示和可视化
有效性和可伸缩性
数据挖掘算法的有效性和可伸缩性
并行分布式和增量挖掘算法
数据库类型的多样性
处理复杂的数据类型
挖掘动态的、网络的、全球的数据库
数据挖掘与社会
数据挖掘的社会影响
保护隐私的数据挖掘
无形的数据挖掘
数据预处理
概念
数据对象:又称样本、实例、数据点或对象,一个数据对象代表一个实体
属性
标称属性:值是一些符号或者事物的名称。每个值代表某种类别,编码或状态,因此标称属性又被看作是分类的
二元属性:是一种标称属性,只有两种状态类别:0或1,0表示该属性不出现,1表示该属性出现。
如果一个二元属性的两种状态具有同等价值并且携带相同的权重,则它是对称的,如果其状态的结果不是同等重要的,则它是非对称的。
序数属性:其可能的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。
数值属性
区间标度属性:用相等的单位尺度度量。区间标度的值有序,可以为0,正或负。因此,除了秩评定以外,这种属性允许我们比较和定量评估值之间的差
比率标度属性:是具有固定零点的数值属性,即如果度量是比率标度的,则我们可以说一个值是另外一个值的倍数(或比率),此外这些值是有序的,因此我们呢可以计算值之间的差,也能计算均值、中位数、众数。
簇:数据对象的集合,使得同一个簇中的对象互相相似,而与其他簇中的对象相异。
数据矩阵:用于存放数据对象,由两种实体或“事物”组成,即行(代表对象),列(代表属性),因此被称为二模矩阵。
相异性矩阵:用于存放数据对象的相异性值,只包含一类实体,因此被称为单模矩阵。
数据质量:准确性、完整性、一致性、时效性、可信性、可解释性
数据清理
概念:通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致来“清理数据”。
缺失值处理
忽略元组
人工填写缺失值
使用一个全局变量填写缺失值
使用属性的中心度量(如均值或中位数)填充缺失值
使用给定元组属同一类的所有样本的属性均值或中位数
使用最可能的值填充缺失值
噪声数据处理
分箱
箱均值光滑
箱中位数光滑
箱边界光滑
回归
离群点分析(聚类)
数据集成:将数据由多个数据源合并成一个一致的数据储存,如数据仓库
数据预处理原因:低质量的数据将导致低质量的挖掘结果
数据预处理重要性:可以显著地提高数据挖掘模式的总体质量,减少实际挖掘所需要的时间。
数据预处理步骤:数据清理——数据集成——数据规约——数据变换
数据变换策略
光滑:去掉数据中的噪声、包括分箱、回归和聚类
属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。
聚集:对数据进行汇总或聚集
规范化:把数据按比例缩放,使之落入一个特定的小区间,如(-1,1)或(0,1)
离散化
概念:数值属性的原始值用区间标签或者概念标签替换
方法:分箱、直方图分析、聚类分析、决策树分析、相关分析
概念分层
概念:定义一个映射序列,将低层概念映射到较高层,更一般的概念
由用户在模式级显式地说明属性的部分序
通过显式数据分组说明分层的一部分
说明属性集但不说明它们的偏序,例:根据每个属性的不同值个数产生概念分层
只说明部分属性集,例:使用预先定义的语义关系产生概念分层
数据规约
概念:用来得到数据集的规约表示,它小的多,但仍接近于保持原始数据的完整性。
策略
维规约
概念:减少所考虑的随机变量或属性的个数
小波变换、主成分分析:把原始数据变换或投影到较小的区间
属性子集选择:检测和删除不相关、弱相关或冗余的属性或维
数量规约
概念:用替代的、较小的数据表示形式替换原数据
参数方法:回归、对数——线性模型
非参数方法:直方图、聚类、抽样、数据立方体聚集
数据压缩
概念:使用变换,以便得到原数据的规约或压缩表示
无损的:原始数据能够从压缩后的数据重构,而不损失信息
有损的:只能近似重构原数据
数据挖掘和联机分析处理
数据仓库是一种数据库,它与单位操作数据库分别维护
数据仓库允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者决策过程。
OLTP:联机事务处理系统,执行联机事务和查询处理
OLAP:联机分析处理系统,用不同的格式组织和提供数据,以满足不同用户形形色色的需求
数据库三层体系结构
顶层:前端工具
中间层:OLAP服务器
底层:数据仓库服务器
数据仓库模型
企业仓库
搜集了关于主题的所有信息,跨越整个企业,它提供整个范围内的数据集成,通常来自一个或多个操作数据库系统或外部信息提供者,并且是多功能的,包含细节和汇总数据
数据集市
概念:包含企业范围内数据的一个子集,对于特定的用户群是有用的,其范围限定于选定的主题,数据通常是汇总的
独立的数据集市:数据通常来自一个或多个操作数据库系统或外部信息提供者,或来自一个特定的部门或局部地区产生的数据
依赖的数据集市:直接来自企业数据库
虚拟仓库
是操作数据库上视图的集合,为了有效地处理查询,只有一些可能的汇总视图被物化
元数据
概念:关于数据的数据,在数据仓库中,元数据是定义仓库对象的数据
内容
数据仓库结构的描述:仓库模式、视图、维、分层结构、导出数据的定义、数据集市的位置和内容
操作元数据:数据血统、数据流通、管理信息
用于汇总的算法:度量和维定义算法,数据所处的粒度,划分,主题领域,聚集,汇总,预定义的查询和报告
由操作环境到数据仓库的映射:源数据库和它们的内容,信关描述,数据提取,清理,转换规则和默认值,数据刷新和净化规则,安全性(用户授权和存取控制)
关于系统性能的数据:除刷新、更新和复制周期的定时调度规则外,还包括改善存取和检索性能的索引和概要
商务元数据:商务术语和定义,数据拥有者和收费策略
与其他数据区别
(1)元数据用作目录,帮助决策支持系统分析者对数据仓库的内容定位
(2)当数据由操作环境向数据仓库环境转换时,作为数据映射的指南
(3)对于汇总的算法,将当前细节数据汇总成稍加综合的数据,或将稍加综合的数据汇总成高度综合的数据
(4)元数据应当持久存放和管理(即存放在硬盘上)
数据立方体
由方体的格组成,每个方体对应于给定多维数据的一个不同级别的汇总。允许以多维对数据进行建模和观察,由维和事实定义。
维:一个单位想要记录的透视或实体,每个维都可以有一个与之相关联的表,称为维表
事实:是数值度量的。事实表包含事实的名称或度量,以及每个相关维表的码。
子主题 5
设计视图
自顶向下的视图:可以选择数据仓库所需的相关信息
数据源视图:揭示被操作数据库系统收集、储存和管理的信息
数据仓库视图:包括事实表和维表。它们提供存放在数据仓库内的信息,包括预计算的总计与计数,以及提供历史背景的关于源、日期和时间等信息。
商务查询视图:从最终用户的角度透视数据仓库中的数据
设计过程
选取待建模的商务处理
选取商务处理的粒度
选取用于每个事实表记录的维
选取安放在每个事实表记录中的度量
应用
信息处理:支持查询和基本的统计分析,并使用交叉表、表、图表或图进行报告
分析处理:支持基本的OLAP操作,包括切片与切块、下钻、上卷和转轴,一般在汇总的和细节的历史数据上操作
数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并使用可视化工具提供挖掘结果。
多维数据挖掘(OLAM)
概念:把数据挖掘与OLAP集成在一起,在多维数据库中发现知识
重要性
数据仓库中数据的高质量
数据仓库中数据的高质量:大部分数据挖掘工具需要在集成的、一致的和清理的数据上运行,这需要安规的数据清理、数据变换和数据集成作为预处理步骤。经由这些预处理步骤构造的数据仓库不仅充当OLAP,而且也充当数据挖掘高质量、有价值的数据源。
环绕数据库的信息处理基础设施
全面的数据处理和数据分析基础设施已经或将围绕数据仓库而系统地建立,这包括多个异构数据库的访问、集成、合并和变换,ODBC/OLEDB连接、Web访问和服务机制报表和OLAP分析工具,应当尽量利用可用的基础设施而非从头做起。
基于OLAP的多维数据探索
有效的数据挖掘需要探索式数据分析,用户常常想遍历数据库,选则相关数据,在不同的粒度上分析它们,并以不同的形式提供知识/结果。
多维数据挖掘提供在不同的数据子集和不同的抽象层上进行数据挖掘的机制,在数据立方体和数据挖掘的中间结果上进行钻取,旋转,过滤,切块和切片
这些与数据/知识可视化工具一起,将大大增强探索式数据挖掘的能力与灵活性。
数据挖掘功能的联机选择
用户常常可能不知道他想挖掘什么类型的知识,通过将OLAP与多维数据挖掘功能集成在一起,多维数据挖掘为用户选择所期望的数据挖掘功能,动态地切换数据挖掘任务提供了灵活性。
OLAP查询的有效处理/步骤
(1)确定哪些操作应当在可利用的方体上执行
这将涉及将查询中的选择、投影、上卷(分组)和下钻操作转换成对应的SQL/OLAP操作
(2)确定相关操作应当使用哪些物化的方体
涉及找出可能用户回答查询的所有物化方体,使用方体之间的“支配”联系知识,进行修剪,评估使用乘除物化方体的开销,并选择开销最小的方体。
挖掘频繁模式、关联和相关性
项集
分支主题
项的集合。包含K个项的集合称为K项集。项集的出现频度是包含项集的事务数,简称为项集的频度、支持度计数、计数
如果项集I的支持度满足预定义的最小支持度阈值(即I的绝对支持度满足对应的最小支持度计数阈值),则I是频繁项集,频繁项集的集合记为Lk
闭项集
如果不存在真超项集Y使得Y与X在D中具有相同的支持度计数,则项集X在数据集D中是闭的
闭频繁项集
如果X在D中是闭的和频繁的,则项集X是D中的闭频繁项集
极大频繁项集
如果X是频繁的,并且不存在超项集Y使得X属于Y,并且Y在D中是频繁的,则项集X是D中的极大频繁项集或极大项集
关联规则挖掘过程
(1)找出所有的频繁项集
根据定义,这些项集的每一个频繁出现的次数至少与预定义的最小支持度计数min_sup一样
(2)由频繁项集产生强关联规则
根据定义,这些规则必须满足最小支持度和最小置信度
F-P-growth优缺点
(1)该方法显著地降低了搜索开销
(2)当数据库很大时,构造基于主存的FP树有时是不现实的。一种选择是首先将数据库划分成投影数据库的集合,然后子啊每个投影数据库中挖掘
(3)对于挖掘长的频繁模式和短的频繁模式,它都是有效的和可伸缩的,并且大约比Apriori算法快一个数量级
分类和预测
是一种数据分析形式,它提取描述数据类的模型。分类器或分类模型预测类别标号(类),数值预测建立连续函数值模型。分类和数值预测是两类主要的预测问题。
监督学习
提供了每个训练元组的类标号,分类器的学习在被告知每个训练元组属于“哪个类”的监督下进行。
无监督学习(聚类)
每个训练元组的类标号是未知的,并且要学习的类的个数或集合也可能事先不知道。
数据分类过程
(1)学习阶段(构建分类器模型)
(2)分类阶段(使用模型预测给定数据的类标号)
决策树
决策树归纳:是一种自顶向下递归树归纳算法,它使用一种属性选择度量,为树的每个非树叶节点选择属性测试。算法包括ID3,C4.5,CART,它们使用不同的属性选择度量。
决策树:一种类似于流程图的树结构,其中,每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶节点(或终端节点)存放一个类标号,树的最顶层节点是根节点。
决策树分类器优缺点
(1)决策树分类器的构造不需要任何领域知识或者参数设置,因此适合于探测式知识发现
(2)决策树可以处理高维数据
(3)获取的知识用树的表示形式是直观的,并且容易被人理解
(4)决策树的归纳学习和分类步骤是简单的和快速的
(5)一般而言,决策树分类器有很好的准确率
(6)决策树是许多商业归纳系统的基础
缺点:成功的使用可能依赖于手头的数据
属性选择度量
是一种选择分裂准则,把给定类标记的训练元组的数据分区D最好地划分成单独的类的启发式方法
如果根据分裂准则的输出将D划分成较小的分区,理想情况下,每个分区应当是纯的(即落在一个给定分区的所有元组属于相同的类)
属性选择度量又称为分裂准则,因为他们决定在给定元组上如何分裂,属性选择度量为描述给定训练元组的每个属性提供了秩评定,具有最好度量得分的属性被选为给定元组的分裂属性。
如果分裂属性是连续的,或者我们限于构造二叉树,则一个分裂点或一个分裂子集也必须作为分裂准则的一部分返回,为分区D创建的树结点用分裂准则标记,从准则的每个输出生长出分枝,并相应地划分元组。
信息增益
增益率
基尼指数
剪枝
在决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常,剪枝方法处理这种过分拟合的问题。
先剪枝
通过提前停止树的构建(如通过决定在给定的结点不再分裂或者划分训练元组的子集)而对树剪枝,一旦停止,结点就成为树叶。该树叶可以持有子集元组中最频繁的类,或这些元组的概率分布。
后剪枝
它由完全生长的数剪去子树。通过删除结点的分枝并用树叶替换它而剪掉给定结点上的子树。该树叶的类标号用子树中最频繁的类标记。
组合分类
装袋
给定d个元组的集合D,装袋过程如下:对于迭代i(i,2,3······k),d个元组的训练集Di采用有放回抽样,由原始元组集D抽取。术语装袋表示自助聚集,每个训练集都是一个自助样本。
由于使用有放回抽样,D的某些元组可能不在Di中出现,而其他元组可能出现多次,由每个训练集Di学习得到一个分类模型Mi,为了对一个未知元组进行分类,每个分类器Mi返回它的类预测,算作一票。装袋分类器M*统计得票,并将得票最高的类赋予X。
提升
权重赋予每个训练元组,迭代地学习K个分类器,学习得到分类器Mi之后,更新权重。使得其后的分类器Mi+1更关注Mi误分类的训练元组。最终提升的分类器M*组合每个个体分类器的表决,其中每个个体分类器投票的权重是其准确率的函数。
随机森林
想象组合分类器中的每个分类器都是一颗决策树,因此分类器的集合就是一个“森林”。个体决策树的每个结点使用随机选择的属性决定划分,更准确地说,每一颗树都依赖于独立抽样,并与森林中所有的树具有相同分布的随机向量的值。分类时,每棵树都投票并且返回得票最多的类。
装袋与提升的区别
由于提升关注误分类元组,所以存在结果复合模型对数据过分拟合的危险,因此,“提升的”结果模型有时可能没有从相同数据导出的单一模型的准确率高。
装袋不太受过分拟合的影响,尽管与单个模型相比,两者都能够显著提高准确率,但是提升往往得到更高的准确率。
类不平衡问题
给定两类数据,如果感兴趣的主类(正类)只有少量元组代表,而绝大多数元组代表负类,则该数据是类不平衡的。
对于多类不平衡数据,每个类的数据分布差别显著,其中,主类或感兴趣的类的元组稀少。类不平衡问题与代价敏感学习密切相关,那里每个类的错误代价并不相等。
过抽样与欠抽样
假设原训练集包含100个正元组和1000个负元组。在过抽样中,复制稀有元组,形成包含1000个正元组和1000个负元组的新训练集。在欠抽样中,随机删除负元组,形成包含100个正元组和100个负元组的新训练集。
阈值移动
阈值移动和组合方法优于过抽样和欠抽样,即使在非常不平衡的数据集上,阈值移动也很有效。
ROC
接收者操作特征曲线(ROC)是一种比较两个分类模型有用的可视化工具,ROC曲线给定模型的真正比率(TPR)和假正比率(FPR)之间的权衡。
ROC曲线使得我们可以对检验集的不同部分,观察模型正确识别正实例的比例与把负实例识别成正实例的比例之间的权衡。TPR的增加以FPR的增加为代价。
ROC曲线下方的面积是模型准确率的度量
ROC曲线使用每个检验元组的类预测概率,对检验元组定秩和排序,使得最可能属于正类或“yes\"类的元组出现在表的顶部,而最不可能属于正类的元组出现在该表的底部。
对比
用户和系统的面向性
面向顾客
面向市场
数据内容
管理当前数据
管理历史数据,提供汇总和聚集机制,并在不同粒度储存和管理信息
数据库设计
E-R数据模型和面向应用的数据库设计
星型或雪花模型,面向主题的数据库设计
视图
关注一个企业/部门当前数据
跨越数据库模式的多个版本,处理来自不同单位信息,以及由多个数据库集成的信息
访问模式
只读操作,复杂查询
访问主要由短的原子事务组成,需要并发控制和恢复机制
数据挖掘概念与技术
0 条评论
回复 删除
下一页