特征工程II期
2015-08-20 18:16:30 8 举报
特征工程II期是一个专注于进一步优化和精细化特征提取的过程。在这个阶段,我们将深入理解数据的特性和业务需求,运用更高级的技术和方法,如深度学习、自然语言处理等,来提取更具代表性和预测性的特征。同时,我们也会进行特征选择和降维,以减少模型的复杂性和过拟合的风险。此外,我们还会定期评估和调整特征的效果,以确保其持续满足业务需求。特征工程II期的目标是通过精细化的特征处理,提高模型的预测准确性和稳定性,从而更好地支持业务决策。
作者其他创作
大纲/内容
终端
1. 8个storm计算任务【评估下量,申请storm资源以及db存储资源】;2. 离线特征计算服务支持;
【7】用户兴趣主题【多个】_文章主题
【5】docId
终端透传字段:1. 召回策略[多个];2. 用户对文章的感兴趣度;
【8】docId
【6】主题(分一级、二级、三级)
【3】docId
兴趣度分档
用户proifle:1.1 性别;1.2 年龄;1.3 城市;--------------2.1 用户兴趣主题;
【1】曝光数、点击数【2】曝光数、点击数。。。【N】曝光数、点击数
主题【解释标记】【兴趣和文章重合】
【2】docId
特征计算--终端真实曝光/点击
【1】docId
性别:男、女、未知
【4】docId
召回id【多个】
由于这些是跟用户相关特征,将使用服务的方式提供该类特征查询风险点:1. 缓存:是否适合缓存;2. 耗时:查询多个存储DCache;
城市
年龄段
样本日志
文章快照:1. 主题;+++++2. 作者权威度3. 关键词词数
文章关联用户/召回特征存储
0 条评论
回复 删除
下一页