用户画像
2023-04-25 14:11:45 6 举报
AI智能生成
用户画像设计
作者其他创作
大纲/内容
定义
用户信息标签化
以用户标志为key的标签树,用于全面刻画用户属性和行为信息
用途
构建对用户、对产品认知
产品优化
定向营销广告投放
标签圈选人群
用于算法
搜索推荐
风控广告策略
特点
多层级标签树
多层级、多维度组织
末级标签不固定某一级
末级是属性值,类型多样(文本、数字、省市、空间)
1-N级别+属性值
标签类别
直观标签(不需要统计处理、性别、年龄、地区属性类别的)
统计类标签(规则类)
初次、最后一次、距今
频次、总次数
大于XX次的用户
挖掘类标签
偏好类(产品、品类、品牌、兴趣)
敏感度(活动、低价、优惠)
兴趣类
预测类标签
流失预测
用户召回(时间重相关)
标签生命周期管理
标签元数据管理
哪些变化较小
哪些需要经常根据业务情况调整
标签值管理
静态标签
属性类别(社会属性)
动态标签(需要统计、变化频繁)
偏好
统计类(频次))
单用户标签做法
1、标签定义
什么行为可以打上这个标签
2、行为数据获取
埋点设计、数据获取
1)内容结构化
用户、时间、接触点、内容、操作
json数据函数处理-》转到日志表-》转到日志业务表
以及业务事实表设计
2)数据质量检查
3)基础数据获取
数据计算处理-数仓汇聚指标计算
3、模型设计(建模分类分级)
4、标签计算
原始用户行为数据计算-》生成标签
产品确定规格需求
5、标签评估
对生产的标签进行评估,看准确率、覆盖率是否达标
2挡、5挡(准确、合格、不准确、我去不准确)
算法标签一般产生流程
1、标签定义分析
用户标志_偏好_偏好类目_衣服_0.83
2、用户行为获取(特征探查))
1)新用户行为如何获取
产品设计
策略设计
2)是否全部行为都需要参与计算
不需要
找出影响用户的核心因子
行为不稀疏(难度不高)
3、模型设计
1)标注数据
种子用户标注
训练和测试样本
核心数据标注
如对物品偏好时,选择加购、下单而不是其他
2、训练集模型
1)明确哪些特征属于重要特征
2)评估特征的权重值
3、测试集验证
测试模型准确性
4、画像加工
1)确定衰减方案
衰减系数
2)更新频率
3)数据归一
标签开发
离线标签
规则类
RFM
用户活跃度计算
多少天内登录算活跃、登录多少次算
按用户群体比例划分(30天未登录占5%)
统计类
用户属性、状态(年龄、性别)
用户日期+业务(消费、下单、次数)
如多少天内、最近30天登录、累计购买金额
挖掘类
如性别、流失预测
流程
1、数据+训练+模型+评价
文本分词、文本权重、TF-IDF权重、朴素贝叶斯分类
周期长
文章分类标签-》反应用户热爱再贴标签
实时类标签
新人弹窗、红包
基本属性
社会属性
姓名、性别、年龄、社会身份、收入状态
账号属性
账号、昵称、邮箱、电话
LBS
国籍、城市、详细地址
设备属性
机型、系统、版本、分辨率、联网方式
平台属性
平台属性
性别、年龄、生日
位置信息
实际座标
用户行为
登录注册激活
最近一次登录距今
激活产品时间
最近30天内登录次数
浏览
banner
最近一次浏览banner距今
最近7天内浏览banner次数
重点商品
特殊资源位
点击
购买
同上
投诉
线上客户服投诉
最近投诉时间
电话投诉
30天是否投诉
产品x功能x用户单点行为x时间
产品偏好
竞品偏好
直接竞品
记录具体竞品偏好
间接竞品
记录具体竞品偏好
内部偏好
首页偏好
搜索偏好
直接搜索、历史搜索偏好
评论偏好
兴趣偏好
品牌偏好
优衣库、gucci
类目偏好
护肤品、衣服、3C、生鲜
标签偏好
颜色
材质
风格
性能
参数
规格
敏感度
活动敏感度
签到活动敏感度
拉新活动敏感度
优惠敏感度
优惠券敏感度、折扣敏感度、满减敏感度
热点敏感度
实时、潮流
消费属性
消费能力
消费行为
消费意愿
消费偏好
用户生命周期及用户价值
画像存储
1、以数仓为基础
存入数仓hive进行计算
2、使用hbase存储
快速获取rowkey(用户id)为基础的用户标签数据json
是否每一桶/列,存某一类标签呢
3、结合ES进行存储
ES可以通过单个标签,获取用户id(设备id)
通过用户id,再去hbase检索用户对应的整体标签
4、mysql
主要存储元数据
存储结果数据
5、存储需要提供数据服务
离线数据转存
api形式
0 条评论
下一页