数据融合
2019-09-03 10:10:14 0 举报
AI智能生成
数据融合
作者其他创作
大纲/内容
数据融合是指将来来自不同的数据源的表示同一实体的不同表象融合至单一表象,并解决可能存在数据冲突的过程。
示例
电视数据
数据定义和采集
数据预处理
简介
对数据进行一些必要的处理,提高数据质量,便于后续分析。
包括数据清洗,数据集成,数据转换,数据约简。
数据清洗
缺失数据处理
删除缺失过于严重的数据
进行填补
均值,常量,回归估计等方法
噪声数据识别和处理
数据平滑
分箱法
噪声删除法
观察法
回归法
根据其他属性值对目标值进行估计,发现偏离较大,认其噪声并删除。
这种方法需要目标属性与其他属性有较强的相关性
聚类
数据聚类,发现离群点
数据集成
实体识别(实体统一)
数据冲突
数据冗余
特征选择和特征提取
数据转换
简介
数据转换指数据的格式、数值进行转换,使其适合于常规的数据挖掘。
数字化
指用文字记录的信息进行用数字替代,其实文本的数据的简单映射替换。
示例
商品参数中的有无电源适配器转换为:0,1
平滑化
分箱法
离散化和泛化
离散化指将连续值用离散值代替,泛化指离散值用新的离散值代替
数据挖掘算法只能处理离散值的方法:决策树、粗糙集
离散化和泛化可使数据变得更有效,并使结果变得更好,如果原有的离散化数据值过于分散,缩小类别化,数据更加集中。
标准化
特征生成和选择
特征提取
文本特征
根据已有特征转换得到新的特征
特征选择
简介
特征是数据挖掘的基本操作单元,其实数据对象在某一方面的描述,对应于数据二维表的列。
数据分析挖掘
多源融合
思路
通过发现数据中的相似度较高的列和行,将其作为种子数据,从此为出发点,去学习发现其他新的匹配列和行,直至完成对数据匹配工作。这样的优势能够将列匹配锁定在最有可能的列之中,减少了全部进行匹配的计算量,通过局部最优解寻找全局最优解的过程。
实体统一结构图
数据列选取和种子特征列选择
属性
固定
变动
半变动
重复度
描述统一度
商品相似度度量
相似度定义
假设一个实体具有多个属性,对于单个属性,设能都用一个0-1的数代表其和另一个实体的属性的相似度
相似度计算
相似度标准化
信息熵
对信息的量化度量
实际上,一条信息的信息量大小和它的不确定性或存在概率有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。因此可以认为信息熵是系统有序化程度的一个度量。 Shannon 借鉴了热力学的概念,把信息与其存在概率关联起来并称之为“信息熵”,并给出了计算信息熵的数学表达式:
0 条评论
下一页