登录免费注册

首页  思维导图  详情

数据标准化/归一化方法

2018-05-16 13:48:36   0  举报





AI智能生成

数据预处理之特征标准化方法整理

数据处理

机器学习

数据挖掘

运营

工作总结

数据分析

方法论

作者其他创作

大纲/内容

标准化

定义：数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间

特点：去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权

归一化处理

定义：数据的归一化处理，即将数据统一映射到 [0,1] 区间上

优势1：提升模型的收敛速度

优势2：提升模型的精度（让各个特征对结果做出的贡献相同）

arctan 函数转换

计算公式：X* = arctan(X)*2/ π

特点：如果想映射的区间为[0,1]，则数据都应该大于等于0，小于0的数据将被映射到[-1,0]区间

小数定标标准化

计算公式：X* = X/(10^j) （j是满足条件的最小整数）

数据范围：[-1,1]

特点：直接、简单，不改变数据分布

适用范围：适合数据初期探索，不消除属性件的权重差异

注意点：会对原始数据做出改变，需要保存所使用的标准化方法的参数，以便对后续的数据进行统一的标准化

排序归一

计算公式：X* = X_rank / X_sum (X_rank 为排名，X_sum 为数据记录条数)

数据范围：(0,1]

特点：将数据变成直线分布

适用范围：对数据具体值不关心，更关心数据的相对排序

min-max 标准化

(0,1] 区间

计算公式：X* = (X - min)/(max - min)

[-1,1] 区间

计算公式：X* = (X - xmean)/(max - min) xmean为数据均值

特点：简单易理解，不改变数据分布

缺陷：有新数据加入时，可能导致max和min的变化，需要重新定义

z-score 标准化

计算公式：X* = (X - μ ) / σ （μ为均值，σ为标准差）

适用范围：适用最大值和最小值未知的情况，或有超出取值范围的离群数据的情况

特点：改变数据分布，对离群点规范化效果好

缺陷：要求原始数据的分布可以近似为高斯分布（正态分布），否则归一化的效果很差

log 函数转换

计算公式：X* = log10(X)/log10(max)

要求：所有的数据都要大于等于1

Logistic/Softmax 变换

子主题

模糊量化模式

计算公式：X* = 1/2+1/2sin[π /(max - min)*(X -(max - min)/2) ]

权重

专家咨询权数法（特尔斐法）

根据专家对指标的重要性打分来定权，重要性得分越高，权数越大

优点：集中来众多专家的意见

缺点：通过打分直接给出各指标权重难以保持权重的合理性

算术平均法、频数统计法、加权统计法

子主题

 收藏

立即使用

数据标准化/归一化方法

职业：本科













评论

0 条评论

下一页

为你推荐

查看更多



设计部标准化

社群运营标准化流程

组件标准化

PEP流程标准化

质量管理标准化

标准化思维导图

标准化过程模式（PDCA）

标准化检修管理流程

标准化运营管理流程

数据标准化、归一化方法分享



图形选择

思维导图

主题

补充说明

AI生成





修改AI描述

去编辑

重新生成

提示 

关闭后当前内容将不会保存，是否继续？

取消

确定