首页  思维导图  详情

数据挖掘.

2018-11-20 15:00:38   0  举报





AI智能生成

数据挖掘，提高工作效率，整理思维方式，供大家交流学习

作者其他创作

大纲/内容

功能

定性与对比

关联分析：从数据集发现关联规则,即A--B

分类与预测：分类即将未知数据映射到某种离散类别之中，如将影响商品销售的因素分为价格、品牌、产地等

分类规则

数据建模---分类测试

决策树

根（最高层）结点--枝干（属性）--枝桠（预测结果）--叶结点（类别）

数学公式

贝叶斯定理：概率P=（假设H/样本X),此定理用来预测数据对象属于某个类别的概率。P(H/X)=P(X/H)P(H)/P(X)

神经网络

后传方法：对于一个样本，不断修改权重以使网络输出和实际类别的均方差最小

聚类分析：将数据对象划分为若干组，如在一个商场购买力较大的顾客【居住地】进行聚类分析

划分方法：定义K个划分，将对象从一个到另一个来改善划分质量，K-means\K-medoids,CLARANS

层次方法：创建一个层次以分解既定的数据集，BIRCH\CURE

基于密度：根据对象周围的密度不断增长聚类，DBSCAN\OPTICS

基于网格：将对象空间划分为有限个单元以构成网格结构，再对网格进行聚类，STING\CLIQUE

基于模型：统计方法COBWEB\神经网络法SOM

异类分析：异类是指那些不符合大多数数据对象所构成的规律的数据对象，如今年商品销售的下降就是异常情况

用于欺诈检测、营销定制、医疗分析等领域

演化分析：描述随时间变化的数据对象的变化规律

步骤

数据清洗：清除与主题无关的数据

遗漏数据处理

忽略

手工填补

利用缺省值填补，如OK

利用均值填补

利用同类别均值填补

利用计算公式找出最可能的值填补

噪声（被测变量的随机错误和变化）数据处理

BIN方法：利用周围点的数值进行局部平滑

聚类方法，发现异常数据

人机结合检查方法

回归方法：利用拟合函数进行平滑

不一致数据处理

数据集成：将多个数据源中的相关数据组合到一起

数据集成

模式集成：如何使来自多个数据源的现实世界的实体相互匹配

冗余问题：若一个属性可以从其他属性里推演出来，那这个属性就是冗余属性

数据值冲突检测与消除，如汇率导致的差别

数据转换

平滑处理，除去噪声，有BIN方法、聚类方法和回归方法

合计处理

数据泛化处理，如年龄属性可以映射到更高层次的概念年轻、中年和老年

规格化

构造属性

数据消减

数据立方合计

维数消减

数据压缩

PCA主要素分析

数据块消减

方法：回归与线性对数模型、直方图、聚类、采样

离散化和概念层次树生成

数值属性，利用划分规则、直方图、聚类分析进行分段并构造相应树

类别属性，利用树涉及属性的不同值个数，构造树

数据转换：将数据转换成易于挖掘的存储形式

数据挖掘：利用智能方法挖掘数据模式或者规律

模式评估：根据一定的评估标准从挖掘结果筛选有意义的模式知识

知识表示：利用可视化和知识表达技巧展示相关信息

 收藏

立即使用

报告摘录1

 收藏

立即使用

运营笔记1

 收藏

立即使用

数据挖掘.

 收藏

立即使用

报告摘录2

--李成蹊

职业：产品经理

去主页





0 条评论

下一页

为你推荐

查看更多

