首页  思维导图  详情

数据标准化、归一化方法分享

2022-10-18 09:28:21   0  举报





AI智能生成

数据标准化、归一化方法分享

数据标准化

数据归一化

作者其他创作

大纲/内容

标准化

定义：数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间

特点：去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权

归一化处理

定义：数据的归一化处理，即将数据统一映射到 [0,1] 区间上

优势1：提升模型的收敛速度

优势2：提升模型的精度（让各个特征对结果做出的贡献相同）

arctan 函数转换

计算公式：X* = arctan(X)*2/nbsp;π

特点：如果想映射的区间为[0,1]，则数据都应该大于等于0，小于0的数据将被映射到[-1,0]区间

小数定标标准化

计算公式：X* = X/(10^j)nbsp; （j是满足条件的最小整数）

数据范围：[-1,1]

特点：直接、简单，不改变数据分布

适用范围：适合数据初期探索，不消除属性件的权重差异

注意点：会对原始数据做出改变，需要保存所使用的标准化方法的参数，以便对后续的数据进行统一的标准化

排序归一

计算公式：X* = X_rank / X_sumnbsp; (X_rank 为排名，X_sum 为数据记录条数)

数据范围：(0,1]

特点：将数据变成直线分布

适用范围：对数据具体值不关心，更关心数据的相对排序

min-max 标准化

(0,1] 区间

计算公式：X* = (X - min)/(max - min)

[-1,1] 区间

计算公式：X* = (X - xmean)/(max - min)nbsp; nbsp; nbsp;xmean为数据均值

特点：简单易理解，不改变数据分布

缺陷：有新数据加入时，可能导致max和min的变化，需要重新定义

z-score 标准化

计算公式：X* = (X - μ ) / σ （μ为均值，σ为标准差）

适用范围：适用最大值和最小值未知的情况，或有超出取值范围的离群数据的情况

特点：改变数据分布，对离群点规范化效果好

缺陷：要求原始数据的分布可以近似为高斯分布（正态分布），否则归一化的效果很差

log 函数转换

计算公式：X* = log10(X)/log10(max)

要求：所有的数据都要大于等于1

Logistic/Softmax 变换

子主题

模糊量化模式

计算公式：X* = 1/2+1/2sin[π /(max - min)*(X -(max - min)/2) ]

权重

专家咨询权数法（特尔斐法）

根据专家对指标的重要性打分来定权，重要性得分越高，权数越大

优点：集中来众多专家的意见

缺点：通过打分直接给出各指标权重难以保持权重的合理性

算术平均法、频数统计法、加权统计法

子主题

 收藏

立即使用

网络因特网互联网知识点学习笔记总结

 收藏

立即使用

计算机网络基础学习知识框架

 收藏

立即使用

网络经济学知识点学习框架笔记

 收藏

立即使用

数据中台学习培训笔记总结

PO_830648

职业：暂无

去主页





0 条评论

下一页

为你推荐

查看更多

