特征分析模块
2021-01-19 19:57:08 38 举报
分析
作者其他创作
大纲/内容
后续处理
1.生成指标以及策略文件,json存储或其他可识别方式2.根据需求是否生成经策略转化后的数据集
数据集个数
1
特征可视化
1.cont:各种统计指标,包含但不限于均值、众数、中位数、分位数、方差2.String:统计字典,统计频数;序列型的可以统计长度分布3.all:统计特征缺失率等综合信息
测试集重划分
数据集输入
配置信息读取
特征策略生成
可使用python进行可视化、或者其他方式也可,主要是把指标进行展示(是否有必要)
结果生成
特征指标计算
特征工程
1.根据上一步的特征指标对cont进行分桶、或缺失值填补、或异常值判断;2.在1的基础上细化策略,如分桶可以用WOE/IV进行进一步合并、异常值可以使用更复杂的算法判断;3.特征归一化
初步确定使用Azkaban项目对分析模块进行封装,方便后续使用者生成对应的结果文件。使用者需要提供的信息:文件存放总地址(默认在该地址下存放配置文件features_properties.json、数据集文件data或者划分好的训练集train和测试集test)
特征字典生成
2
数据集合并、有偏数据集生成
0 条评论
下一页
为你推荐
查看更多