数据挖掘的过程
2020-06-28 10:49:53 2 举报
AI智能生成
数据挖掘的过程
作者其他创作
大纲/内容
数据挖掘的实现过程
数据准备
处理对象
大量的数据
准备工作
数据集成、数据选择和数据预处理
数据挖掘
目标
根据DM的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型
相关工作
确定主题、读入数据并建立模型和挖掘操作
采用较多的技术
决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法
解释
通过上面步骤所得到的模式,有可能是没有意义或没有实用价值的,因此需要评估,确定那些是有效的、有用的模式
大部分模式是用数学手段描述的表达式,很难被人理解,还需要将其解释成可理解的方式以呈现给用户
运用
一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持
另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化
所需专业人员
业务分析人员
数据分析人员
数据管理人员
定义数据挖掘任务
确定主题
思考
数据挖掘要进行到什么程度?
要用多少数据?
需要检查什么数据?
从何处着手?
确定研究主题时确定目标
许多不同类型的信息都可以作主题
首先定义与任务相关的数据,即要确定数据选择的条件、数据分组条件、相关属性或维等
确定与数据挖掘任务相关的知识类型,即从特征化和判别式、关联、分类、预测、聚类和演变分析等中找出一种或几种类型
获取一定的背景知识,背景知识是正确的作出概念分层和用户对数据保持联系
度量与数据挖掘任务相关的模式兴趣度:兴趣度度量包括评估模式的简洁性(如规则长度)、确定性(置信度)、实用性(支持度)和新颖性
数据预处理
概念
是从大量的数据属性中提取对目标有重要影响的属性来降低原始数据的维度,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度
数据预处理的原因与方法
原因
数据被“污染”了,使得数据存在缺失、错误、不一致等问题
数据不能很好反映潜在的模式,需要进行有效属性的提取以及构造
原始数据中存在的问题
不一致——数据内涵出现不一致情况
重复
不完整——感兴趣的属性没有值
含噪声——数据中存在着错误、或异常(偏离期望值)的数据
高维度
方法
数据的收集与准备、数据清理、数据集成、数据变换、数据归约、离散化和概念分层等
数据的收集与准备
数据的收集和准备是开展数据挖掘的最大障碍
从多种数据源中去综合数据挖掘所需要的数据,保证数据质量的综合性、易用性和时效性,这有可能要用到数据仓库的思想和技术
如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性
数据清理
处理空缺值
数据并不总是完整的
引起空缺值的原因
设备异常
与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时,有些数据因为得不到重视而没有被输入
对数据的改变没有进行日志记载
空缺值要经过推断而补上
消除噪声数据
噪声是在测量一个变量时可能出现的测量值相对于真实值的偏差或者错误。噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,这些数据对数据的分析造成了干扰
噪声的处理方法
一是,识别出噪声,将其除去(聚类)
二是,利用其它非噪音数据降低噪音的影响,起到平滑作用(分箱、回归)
三是,利用一些统计学参数来描述(数据的分布特性可以反映数据分布的主要趋势,如均值、中位数、众数、半程数、标准差和方差等)
通过描述数据的元数据来消除数据命名的不一致,通过专门的例程来消除编码的不一致等等
数据集成
将数据由多个数据源合并成一致的数据存储
模式匹配(数据模式集成)
数据值冲突(检测并解决数据值的冲突)
数据冗余(处理数据集成中的冗余数据)
数据变换
数据变换就是将数据进行规范化和聚集。其作用是将数据转换为易于进行数据挖掘的数据存储形式
常见方法
数据规范化
又为标准化(Standardization),是将描述统一对象的多个属性的取值范围进行规范,统一到相同的范围,避免某些属性的作用大于其他属性
常用规范化方法
最小-最大法规范化
对原始数据进行线性变换
Z-score(0均值规范化)
属性A 的值基于A 的平均值和标准差规范化
小数定标规范化
通过移动属性A的小数点位置进行规范化
数据归约
是指通过聚集、删除冗余特性或聚类等方法来压缩数据
常用的方法是数据立方体聚集、维或数值归约、数据压缩、离散化和概念分层产生
数据离散化
离散化是将连续取值转换为区间取值的方法
有些知识发现技术只能处理离散化属性,因此,需要将连续变量取值的属性进行离散化,这也可以缩减数据量
离散化方法
无监督离散化
分箱离散化(Binning)
分箱
把待处理的数据按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理
箱子
按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间代表的“箱子”里
分箱技术需要确定的主要问题
分箱方法,即如何分箱
数据平滑方法,即如何对每个箱子中的数据进行平滑处理
分箱的方法
统一权重(等深分箱法)
按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱的权重,也称箱子的深度
统一区间(等宽分箱法)
在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度
用户自定义区间
用户根据需要自定义区间
数据平滑方法
按平均值平滑
对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据
按边界值平滑
用距离较小的边界值替代箱中每一数据
按中值平滑
取箱子的中值,用来替代箱子中的所有数据
有监督离散化
基于熵的离散化(分类章节讲)
基于卡方统计量的方法(ChiMerge)(不要求)
数据挖掘中常见的一些问题
商业用户提出的问题
技术问题
数据挖掘应用问题
实施DM项目考虑问题
DM对社会的影响
数据挖掘的过程
数据挖掘的典型模型
5A模型
侧重
强调的是支持数据挖掘过程的工具应具备的功能和能力,它是对支持数据挖掘工具的定义
Assess
正确、彻底地评价任务的需求及数据,正确地理解商业问题和数据,并设计挖掘计划及相关准备任务
软件技术方案
将技术与组织的目标、策略和步骤结合起来
拥有世界范围的咨询和培训
Access
方便、快速地存取任务所涉及的数据,要求数据集合(DB、DW、DM)应该完全符合评价的要求和质量
选用的数据挖掘软件必须满足下列存取准则
易于存取和连接各种数据源
能直接从ASCII正文、数据表、数据库文件读入数据
能处理大量(GB以上)的数据文件
Analyze
适当、完备的分析技术和工具,要求工具能全面提供适合不同需求的各种挖掘、建模算法
具备两类分析方法和工具,即发现工具和验证工具
验证工具检验发现工具所产生的结果是否合理
发现型方法和工具包括基因遗传算法、规则推导、模糊逻辑、数据可视化、聚类算法、因素分析、神经网络、决策树等
验证方法和工具包括回归、逻辑回归、判别分析、预测建模等
Act
具有推荐性、有说服力的模型演示,提供可视化的模型并能够灵活嵌入到各类展示平台中用大量的列表和图形或者通过办公软件来演示数据挖掘软件的能力
演示特性
完好的集成图形功能,以提供专业级的演示
OLE支持,以易于嵌入图表节省报告时间
INTERNET特性,以易于图表的网上传输和本地察看
演示模版特性,以节省编辑时间
特殊查询功能,以利于快速提供附加的分析能力来响应用户的提问
报告注解功能,以加入注解到报告中
Automate
自动地提供挖掘结果并展现给用户,指面向用户的操作尽可能完善和自动化软件的应用过程。
自动化功能
OLE自动化开发者的机制,允许用户在通用代码级(VB、EXCEL、 ACCESS、PB等)使用软件
内建编程语言/脚本/宏,使用户可以方便的创建自己的应用
制作能力,能编写产生日常报告的命令行文件
SEMMA模型
强调的是结合SAS公司的挖掘工具进行应用开发的方法
抽样(Sample)
从一张或者多张数据表格中获得数据,所获得的数据必须足够大也足够小(足够大以使得其中能够包含足够多的信息;足够小以使得我们能够处理)。
选取数据
探索(Explore)
在数据中探索,以找到已经预测到的关系,没有预测到的趋势和异常情况,以便对于数据有深入的理解和想法
可视化数据、聚类分析和因子筛选
修正(Modify)
产生、选择、转换变量,对数据进行修改
数据重组和细分,添加和拆分记录
建模(Model)
采用分析工具建模,找到一个数据的“组合”,以便可靠地预测需要的结果
ANN,决策树,数理统计分析,时间序列分析
评估(Assess)
评价模型的作用和可靠性
结论综合和评价,修改和评价
CRISP-DM模型
从进行数据挖掘方法学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖掘系统
目的
项目的生存周期
6个阶段(PHASE)
商业理解(Business Understanding)
本阶段专注于从行业角度理解项目目标和需求,并转化为数据挖掘的问题定义,同时设计一个初始计划。
初始计划
确定业务目标
评估商业环境
确定数据挖掘目标
提出项目计划
数据理解(Data Understanding)
本阶段先收集初步的数据,然后了解并熟悉数据,以识别数据质量、找到对数据的基本观察或假设隐含的信息以检测出感兴趣的数据子集
具体包括
收集原始数据
描述数据
探索数据
检查数据质量
数据准备(Data Preparation)
本阶段包括从数据构造到最终数据集合(将要输入建模工具的数据)的所有活动。数据准备任务可能需要执行很多次,并没有任何规定的顺序
数据选择
数据清洗
数据创建
数据合并
数据格式化
建模(Modeling)
本阶段可以选择各种建模技术,各类模型参数也可以调整优化。对同一个数据挖掘问题有多种可用技术,某些技术对数据的形式有一定的要求,因此常常要退回到数据准备阶段
选择建模技术
测试方案设计
评估(Evaluation)
在最终扩展模型前要彻底地评价模型,对所建模型再次考察其执行步骤并确信其正确地达到了商业目标。一个关键目的是确定是否有某些重要的商业问题还没有充分地考虑到
结果评估
过程回顾
确定下一步工作
部署(Deployment)
所获得的挖掘结果和知识应采用用户可以使用的方式组织和表示。可简单到一份报告,也可以实现一个可以重复的挖掘过程或系统。多数情况下,这将由用户而非分析员实施
部署计划
监控和维护计划
做出最终报告
项目回顾
4个层次(LEVEL)
上两层
独立于具体数据挖掘方法,即是一般数据挖掘项目均需实施的步骤 (这解决了“WHAT TO DO?”的问题)
阶段划分(phase)
定义通用任务(generic task)
下两层
下两层注重解决如何完成每个阶段所要完成的任务和任务的输出所要求的必要映射活动 (这用于解决“HOW TO DO”的问题)
定义专用任务(specialized task)
处理实例(process instance)
2017215019 伍 佳2017215020 邓兴媛2017215021 张爱铃2017215022 刘宜杭2017215037 李林蔚2017215040 倪豪廷
图8
0 条评论
回复 删除
下一页