数据挖掘概述
2020-06-28 10:43:28 1 举报
AI智能生成
数据挖掘概述
作者其他创作
大纲/内容
数据挖掘的功能与方法
功能
详细功能
建模
关联分析
概念描述
数据总结
分类分析
聚类分析
时间序列分析
偏差分析
挖掘数据
预测
用一些变量或数据库的若干已知字段预测其他感兴趣的变量或字段的未知的或未来的值
描述
找到描述数据的可理解的、能展示一些有价值信息的模式,用于报表中指导商业策略或进行预测
方法
决策树方法
模糊集方法
神经网络方法
粗糙集方法
统计分析方法
可视化方法
生物智能算法
数据挖掘的应用
应用前景
科学研究中的数据挖掘
市场营销的数据挖掘
金融数据分析的数据挖掘
电信业的数据挖掘
产品制造中的数据挖掘
Internet应用中的数据挖掘
具体应用
决策树
倾向性分析
聚类分析
客户细分
市场细分
关联分析
市场组合分析
套装产品分析
目录设计
交叉销售
神经网络
倾向性分析
客户保留
目标市场
欺诈检测
数据挖掘的发展趋势
发展趋势
数据挖掘理论与算法的研究
复杂数据类型的挖掘问题
数据挖掘语言与数据挖掘的可视化
数据挖掘的性能问题
数据挖掘系统的架构
交互式数据挖掘技术
数据挖掘中的私有性问题
数据挖掘中的不确定性问题
数据挖掘中的动态性问题
未来的热点应用领域
网站数据挖掘
Web Site DM
Web Site DM
生物信息或基因的数据挖掘
文本挖掘
Textual mining
Textual mining
多媒体挖掘
未来的研究热点
发现语言的形式化描述
研究专门用于知识发现的数据挖掘语言,寻求类似于数据库中SQL语言一样的数据挖掘语言,使挖掘过程走向形式化和标准化
寻求数据挖掘过程中的可视化方法
使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互
研究在网络环境下的数据挖掘技术
特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现Web挖掘
加强对各种非结构化数据的挖掘
如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的挖掘
知识的维护更新
数据挖掘的结果——知识是具有时效性的,需要研究知识的维护更新技术,如知识的增量更新、模型的进化等
常用数据挖掘软件
一般分析目的用的软件包
Microsoft SQL Server
SAS Enterprise Miner
IBM Intelligence Miner
Unica PRW
IBM SPSS Modeler
SGI MineSet
Oracle Darwin
Angoss KnowledgeSeeker
针对特定功能或产业而研发的软件
KDI(针对零售行业)
Options & Choice(针对保险行业)
HNC(针对信用卡欺诈或坏账检测)
Unica Model 1 (针对营销行业)
整合DSS/OLAP/Data Mining的大型分析系统
Cognoss Scenario and Business Objects
19款最好用的免费数据挖掘工具(2019年5月)
https://blog.csdn.net/yoggieCDA/article/details/90447561
数据挖掘的产生与发展
产生
产生背景
数据库技术的成熟
数据应用的普及
数据应用的普及
数据过剩
信息爆炸
信息爆炸
没有有效的方法提取有效信息
需要一种去粗存精、去伪存真的技术
产生动力
数据爆炸问题
数据过量而知识贫乏
数据库技术
并行计算
分布式计算
并行计算
分布式计算
发展
演变过程
挖掘对象的演变
解决问题的演变
从商业数据到商业信息的进化
目的的发展
不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润
重点开展的工作
数据挖掘技术与特定商业逻辑的平滑集成问题
数据挖掘技术与特定数据存储类型的适应问题
大型数据的选择与规格化问题
数据挖掘系统的构架与交互式挖掘技术
数据挖掘语言与系统的可视化问题
数据挖掘理论与算法研究
数据挖掘解决的问题
可伸缩
高维性
异种数据和复杂数据
数据的所有权与分布
非传统的分析
数据挖掘的概念
定义
定义1,数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程
定义2,数据挖掘就是数据库中知识的发现
定义3,数据挖掘为发现数据中隐藏的模式和关系的过程
定义4,数据挖掘是从大量数据中提取或挖掘知识
定义5,知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步
定义6,数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程
综合定义
数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法
技术角度,数据挖掘是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程
商业角度,数据挖掘是一种新的商业信息处理技术,主要特点是对数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息和知识
数据挖掘本质上是一种深层次的数据分析方法。可描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法
特点
数据量巨大
动态性
适用性
系统性
数据挖掘与相关概念的区分
与传统数据分析
本质区别:数据挖掘在没有明确假设的前提下去挖掘信息、发现知识,挖掘所得到的信息应具有预先未知、有效和实用三个特征
传统的数据分析方法基于假设驱动的;
数据挖掘,在一定意义上是基于发现驱动的
数据挖掘,在一定意义上是基于发现驱动的
数据源不同,数据挖掘的数据源数据是海量的,数据有噪声,数据可能是非结构化的;
传统数据分析方法的数据源一般都是清洁好的、结构化的数据
传统数据分析方法的数据源一般都是清洁好的、结构化的数据
与信息处理、知识发现
数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
信息处理基于查询,可以发现有用的信息。但是这种查询回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式,或隐藏在数据库中的规律。
知识发现是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后隐藏的知识,称为数据库中的知识发现
与数据仓库
一种融合和互补的关系
数据仓库中的数据可以作为数据挖掘的数据源
数据挖掘的数据源不一定必须是数据仓库,可以是任何数据文件或格式
与OLAP
OLAP分析过程在本质上是一个演绎推理的过程,是决策支持领域的一部分
数据挖掘在本质上是一个归纳推理的过程
数据挖掘和OLAP具有一定的互补性
与人工智能、统计学
数据挖掘利用了人工智能和统计分析的进步所带来的好处。两门学科都致力于模式发现和预测
数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分析方法学的延伸和扩展
数据挖掘就是充分利用了统计学和人工智能技术的应用程序,
数据挖掘的分类
按数据挖掘方法的直接性
直接数据挖掘、间接数据挖掘
按数据分析的角度分类
描述式数据挖掘、预测式数据挖掘
按挖掘的数据库分类
关系型、事务型、面向对象型、主动型、空间型、文本型、多媒体、异构数据库
按挖掘的规则类
关联规则、分类规则、聚类规则、趋势分析、偏差分析、模式分析、特征规则、总结规则
按采用的技术分类
模糊和粗集方法、人工神经网络、遗传算法、决策树、最近邻技术、规则归纳、可视化技术
按挖掘知识的抽象层次分类
原始层次、高层次和多层次
按挖掘知识的反映事物之间的性质分类
同类共性广义知识、特征型知识、属性差别知识、关联型知识、预测型知识、离群型知识
2017215019 伍 佳
2017215020 邓兴媛
2017215021 张爱铃
2017215022 刘宜杭
2017215037 李林蔚
2017215040 倪豪廷
2017215020 邓兴媛
2017215021 张爱铃
2017215022 刘宜杭
2017215037 李林蔚
2017215040 倪豪廷
图8
0 条评论
下一页