数据标准化/归一化方法
2018-05-16 13:48:36 0 举报
AI智能生成
数据预处理之特征标准化方法整理
作者其他创作
大纲/内容
标准化
定义:数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间
特点:去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权
归一化处理
定义:数据的归一化处理,即将数据统一映射到 [0,1] 区间上
优势1:提升模型的收敛速度
优势2:提升模型的精度(让各个特征对结果做出的贡献相同)
arctan 函数转换
计算公式:X* = arctan(X)*2/ π
特点:如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间
小数定标标准化
计算公式:X* = X/(10^j) (j是满足条件的最小整数)
数据范围:[-1,1]
特点:直接、简单,不改变数据分布
适用范围:适合数据初期探索,不消除属性件的权重差异
注意点:会对原始数据做出改变,需要保存所使用的标准化方法的参数,以便对后续的数据进行统一的标准化
排序归一
计算公式:X* = X_rank / X_sum (X_rank 为排名,X_sum 为数据记录条数)
数据范围:(0,1]
特点:将数据变成直线分布
适用范围:对数据具体值不关心,更关心数据的相对排序
min-max 标准化
(0,1] 区间
计算公式:X* = (X - min)/(max - min)
[-1,1] 区间
计算公式:X* = (X - xmean)/(max - min) xmean为数据均值
特点:简单易理解,不改变数据分布
缺陷:有新数据加入时,可能导致max和min的变化,需要重新定义
z-score 标准化
计算公式:X* = (X - μ ) / σ (μ为均值,σ为标准差)
适用范围:适用最大值和最小值未知的情况,或有超出取值范围的离群数据的情况
特点:改变数据分布,对离群点规范化效果好
缺陷:要求原始数据的分布可以近似为高斯分布(正态分布),否则归一化的效果很差
log 函数转换
计算公式:X* = log10(X)/log10(max)
要求:所有的数据都要大于等于1
Logistic/Softmax 变换
子主题
模糊量化模式
计算公式:X* = 1/2+1/2sin[π /(max - min)*(X -(max - min)/2) ]
权重
专家咨询权数法(特尔斐法)
根据专家对指标的重要性打分来定权,重要性得分越高,权数越大
优点:集中来众多专家的意见
缺点:通过打分直接给出各指标权重难以保持权重的合理性
算术平均法、频数统计法、加权统计法
子主题
收藏
0 条评论
下一页