数据挖掘.
2018-11-20 15:00:38 0 举报
AI智能生成
数据挖掘,提高工作效率,整理思维方式,供大家交流学习
作者其他创作
大纲/内容
功能
定性与对比
关联分析:从数据集发现关联规则,即A--B
分类与预测:分类即将未知数据映射到某种离散类别之中,如将影响商品销售的因素分为价格、品牌、产地等
分类规则
数据建模---分类测试
决策树
根(最高层)结点--枝干(属性)--枝桠(预测结果)--叶结点(类别)
数学公式
贝叶斯定理:概率P=(假设H/样本X),此定理用来预测数据对象属于某个类别的概率。P(H/X)=P(X/H)P(H)/P(X)
神经网络
后传方法:对于一个样本,不断修改权重以使网络输出和实际类别的均方差最小
聚类分析:将数据对象划分为若干组,如在一个商场购买力较大的顾客【居住地】进行聚类分析
划分方法:定义K个划分,将对象从一个到另一个来改善划分质量,K-means\K-medoids,CLARANS
层次方法:创建一个层次以分解既定的数据集,BIRCH\CURE
基于密度:根据对象周围的密度不断增长聚类,DBSCAN\OPTICS
基于网格:将对象空间划分为有限个单元以构成网格结构,再对网格进行聚类,STING\CLIQUE
基于模型:统计方法COBWEB\神经网络法SOM
异类分析:异类是指那些不符合大多数数据对象所构成的规律的数据对象,如今年商品销售的下降就是异常情况
用于欺诈检测、营销定制、医疗分析等领域
演化分析:描述随时间变化的数据对象的变化规律
步骤
数据清洗:清除与主题无关的数据
遗漏数据处理
忽略
手工填补
利用缺省值填补,如OK
利用均值填补
利用同类别均值填补
利用计算公式找出最可能的值填补
噪声(被测变量的随机错误和变化)数据处理
BIN方法:利用周围点的数值进行局部平滑
聚类方法,发现异常数据
人机结合检查方法
回归方法:利用拟合函数进行平滑
不一致数据处理
数据集成:将多个数据源中的相关数据组合到一起
数据集成
模式集成:如何使来自多个数据源的现实世界的实体相互匹配
冗余问题:若一个属性可以从其他属性里推演出来,那这个属性就是冗余属性
数据值冲突检测与消除,如汇率导致的差别
数据转换
平滑处理,除去噪声,有BIN方法、聚类方法和回归方法
合计处理
数据泛化处理,如年龄属性可以映射到更高层次的概念年轻、中年和老年
规格化
构造属性
数据消减
数据立方合计
维数消减
数据压缩
PCA主要素分析
数据块消减
方法:回归与线性对数模型、直方图、聚类、采样
离散化和概念层次树生成
数值属性,利用划分规则、直方图、聚类分析进行分段并构造相应树
类别属性,利用树涉及属性的不同值个数,构造树
数据转换:将数据转换成易于挖掘的存储形式
数据挖掘:利用智能方法挖掘数据模式或者规律
模式评估:根据一定的评估标准从挖掘结果筛选有意义的模式知识
知识表示 :利用可视化和知识表达技巧展示相关信息
0 条评论
下一页