Python数据分析技巧
2024-01-25 14:56:23 0 举报
AI智能生成
常用的异常值处理、检验和特征选择方法的Python实现
作者其他创作
大纲/内容
特征工程
异常值处理
发现异常值
isnull()
duplicated()
删除异常值
drop()
dropna(subset=['']) 删除某列带空值的行
drop_duplicated([''], keep='first'/'last'/'False")
填充异常值
fillna()
插值 Series.interpolate(method='')
特征选择
选择方法
连续X vs 连续Y
相关系数、假设检验
连续X vs 离散二值Y
相关系数、连续二值化(最小Gini切分、最大熵增益切分)
连续X vs 离散非二值Y
相关系数(定序)
离散二值X vs 离散二值Y
相关系数、熵相关、F分值
离散X vs 离散非二值Y
熵相关、Gini、相关系数(定序)
选择思想
过滤思想
sklearn.feature_selection
SelectKBest
包裹思想
sklearn.feature_selection
RFE
嵌入思想
sklearn.feature_selection
SelectFromModel
特征变换
对指化
对数化
缩小尺度
numpy.log
指数化
扩大尺度
numpy.exp
离散化
等频(等深)分箱
pd.qcut(lst, q=?, labels=['',''])
等距(等宽)分箱
pd.cut(lst, bins=?, labels=['',''])
自因变量优化
归一化
Min-Max
sklearn.preprocessing
MinMaxScaler
标准化
Z-Score
sklearn.preprocessing
StandardScaler
数值化
定序数据
标签化
sklearn.preprocessing
LabelEncoder
定类数据
独热化
sklearn.preprocessing
OneHotEncoder
正则化
sklearn.preprocessing
Normalizer
norm='l1'/'l2'
特征降维
PCA
LDA
带标注降维,不同标注间距离最大,同标注内距离最小
0 条评论
下一页