数据挖掘产品体系
2017-02-14 14:43:13 0 举报
AI智能生成
数据挖掘产品体系是一种集成了多种技术和工具的全面解决方案,旨在帮助企业从海量数据中提取有价值的信息和知识。这一体系包括数据预处理、特征工程、模型构建、评估与优化等环节,涵盖了分类、聚类、关联规则、时序分析等多种挖掘方法。通过数据挖掘产品体系,企业可以实现对市场趋势、客户行为、产品性能等方面的深入洞察,为决策提供有力支持。同时,数据挖掘产品体系还具备易用性、可扩展性和高性能等特点,能够满足不同规模和行业的企业需求。总之,数据挖掘产品体系为企业提供了一种强大的数据分析武器,有助于提升竞争力和创新能力。
作者其他创作
大纲/内容
数据清洗转换
基础数据同步
通用维度处理(生成摘要信息,异常值处理,缺值填充等)
归一化(去量岗)
其他。
纬度可视化(。。后期)
暂行:(生成训练集数据同步到线下,提供SASS使用,非长期方案)
根据模型真正需要的数据做转换(SQL)
模型&评估
在测试集上建立模型及调优(更多的算法和参数,但需要可以被固化的)
模型评估(对在测试集也就是真实数据上的结果进行评估,分析,优化模型)
固化模型提取(生成模型关系)
特征提取(建立模型真正使用的向量可能和清洗部分产生的有所差别,所以需要纪录此处的逻辑,在发布的时候对数据进行清洗)
模型固化(发布)
根据Sass产生的模型进行固化(最好固化的是线性模型,对于非线性模型和神经网络相关的模型需要后期使用BML之类的才可以固化)
线上模型测试(和训练集结果进行对比,无误后方可发布,K交叉验证)
模型结果数据输出
线性模型可以直接定义为规则,在盘古上进行部署管理
模型发布采用节点的形式,形成一个完整的任务链条
模型使用Spark计算资源,和清洗一致
下游打通
同步模型结果数据到圈人系统。(和圈人系统打通)
目前和齐挺对过,主要还是以id-score的形式给出
对于非用户推送模型:push到某个位置,提供用户订阅消费。
这部分需要关联其他信息,本期暂时不考虑
考虑和我们监控进行打通,使用模型对数据质量进行监控
效果追踪
数据消费情况追踪(我们产出的数据被消费的情况)
订阅中心(后续)
模型管理中心(后续)
模型效果追踪
push数据等的同步(盘古)
转换率等监控报表(showx,离线)
监控中心(?)
这部分目前主要借助盘古调度实现,部分逻辑需要代码,以python脚本的方式嵌入
0 条评论
下一页