《产品逻辑之美》读书笔记
2022-06-01 14:23:18 48 举报
AI智能生成
《产品逻辑之美》读书笔记
作者其他创作
大纲/内容
1.信息架构
1.1信息架构是什么
定义
信息的根本价值是消除随机不确定性,产品需要通过信息交互来消除用户对产品信息的随机不确定性,同时也消除产品对用户需求的随机不确定性
Web1.0
《Web1.0信息架构:设计大型网站》提出:Web1.0时代的信息组织形式:分类、导航、标签和搜索
网站自主组织信息
新兴的信息组织形式
关系链
随着Web2.0产生,Web2.0时代信息主要由用户产生
典型代表:Facebook、Twitter、微信、微博
个性化推荐
典型代表:今日头条
信息流
1.2信息架构设计的基本问题
你的用户是谁
有过培训或长期使用经验的内部用户:按照用户常用的信息分类形式设计信息架构;对于没有背景知识的外部用户:搜索
对于理性消费者:以搜索分类为主的信息组织形式;对于感性消费者:推荐的信息流更加有效
你的内容是怎样的
你的产品应用场景是什么
原因
用户为什么使用产品
对象
用户会使用产品的什么功能
地点
用户会在什么地点和平台使用产品
时间
用户会在什么时间使用产品
人员
哪些人员需要为用户服务
方法
用户使用产品的路径是什么
1.3如何设计好信息架构
选择合理的解决方案
搜索系统
适合用户对信息有明确需求且内容量比较大的场景
推荐系统
适合内容量大且类型丰富的产品,推荐系统有更好的信息分发效果
分类系统
适合内容量比较少的产品。且能用通用标准划分,且这些标准容易被用户理解
导航系统
标签系统
符合一般用户认知
可视化的方案
以人为中心的设计
采摘模型
由加利福尼亚大学的玛西亚·J·贝茨博士提出
指用户的信息搜寻过程从一个人点(比如一个关键字或一个链接)开始,随着过程的深入,用户会在整个信息系统中反复移动来获取他们想要的信息。
要能够让用户容易地在搜寻和浏览之间来回移动
典型:搜索结果页
珍珠生长模型
由凯伦·马基和波林·科克伦于1982年提出
用户往往从一个或几个内容开始得到很多相关信息
典型:个性化推荐的协同过滤、典型的文章页面有可点击的标签
本质是通过内容的关联性,帮助用户查找更多内容
7±2法则
根据美国认知心理学家乔治·A·米勒的研究,人类短期记忆有记忆上限,一般一次只能记住5~9个事物
人难以一次获取过多的信息
在并列的信息同时展现时,要尽可能突出重点信息,而不要使用太多信息干扰用户真正需要的信息
系统容错设计
要考虑用户对内容的理解和系统设定不一致的情况
系统错误基本分为两种
番茄式
内容存在歧义,但几种方案没有对错之分
解决方案:保持冗余,比如蔬菜类和水果类下面都可以有番茄
蝙蝠式
内容不存在歧义,但大量用户理解错误
解决方案:直接纠错,同时也可以通过提示告诉用户我们识别了这种错误
搜索系统中就有大量类似的容错设计
比如用户搜索一个关键词,对于通用搜索引擎,相关的结果都应该出现在搜索结果中
也可以通过判断,纠错
思路都是:保持歧义或直接纠错
合理的信息反馈
系统的可扩展性
所有的设计准则都可以违反
1.4分类系统:建立内容的图书馆
分类的难点
类型的多样性
内容的模糊性
实际遇到的大多数问题都是番茄式的,没有统一的标准,不属于标准的公共知识
关键取决于对用户、内容、场景的研究
用户的差异性
典型:不同豆瓣用户对电影的评分
多级分类
一方面要尽可能让每级的类别数量保持均衡,另一方面也要尽可能让每一级的分类有通用的分类依据
MECE原则:相互独立,完全穷尽
相互独立意味着在同一纬度上内容有明确区分且互相不重叠,完全穷尽则意味着每个内容都能被归纳到分类体系里
分类的纬度
精确分类法
字母顺序分类
时间分类
其他
按行政划分区域、按字数划分文章、按用户等级划分用户、按销售额划分商品等
主题分类法
比如:书籍分类的经济管理类、人文社科类
动态调整
任务分类法
比如APP首页按照用户需要进行的任务划分
受众分类法
隐喻分类法
比如:回收站、控制面板
1.5导航系统
传统导航分类
全局导航
传统全局导航至少都会保留网站全称,点击网站名可以跳转到首页
局部导航
用户当前页面或者当前流程的导航
在网页中多存在整个页面的左边或者全局导航栏下面
情境化导航
针对当前内容用户可以产生的疑问进行的导航
比如在维基百科中名词介绍里穿插的索引链接
辅助导航
比如网站指南或者索引
移动端导航
全局导航
局部导航
局部导航折叠、局部导航简化、局部导航碎片化
常见例子:“更多”按钮
情境式导航
模态弹窗
辅助导航
1.6标签系统
标签的来源
系统标签
系统中已经归纳和建立好的标签体系
相对稳定,能覆盖大部分产品的使用场景
比如电商系统的商品品牌
非系统标签
非系统标签是系统中本来没有的标签,主要从用户行为中产生,是一些还没被正式认知的标签
经过审核筛选有一部分标签可以成为系统标签
例子:热门搜索词;豆瓣、微博、知乎用户自己对内容打的标签
系统标签的设计原则
消除歧义
相互联系
橘子和橙子是典型的相似关系
水果和水果刀是典型的协同关系
水果和橙子是典型的从属关系
核桃和橘子可以认为是互斥关系,一个是干果一个是水果
这些关系需要存储在系统中
适度开放
需要给用户一定的自由度参与其中
产品定位越专业,开放程度越要收缩
标签系统的作用
用户层面
提高了阅读体验并促进了用户的表达
系统层面
促进系统数据的格式化和系统化
标签系统的三个好处
加强了信息的流动,方便用户进一步找相关信息
引导用户关注标签,可以让用户在平台留下更多内容
用户关注标签后,可以增加给用户推荐信息的内容和商品的理由,同时标签入口也会作为用户经常看自己感兴趣内容的常规入口
2.数据分析
明确业务目标
确定衡量指标
例子:新闻资讯类产品
平均每用户使用时长、平均每用户的阅读频次、平均每用户的评论量
大迭代
以核心指标作为依据
小迭代
以核心指标的细分指标作为依据
一方面要有能够反映修改点的直接数据
一方面要反映数据修改点可能引起其他模块的指标变化
忽略负面指标会导致产品决策失误
比如给用户批量发送短信召回,虽然提高了活跃用户数,但可能导致很多用户卸载了产品
数据监控收集
业务数据分析
确定产品方案
产品上线测试
确定最终方案
从埋点到指标
不同平台埋点采集
浏览时长在网页daunting难以统计,在客户端就比较容易统计
网页端埋点主要通过页面中用户触发的网络请求进行统计,不做操作时,不管用户切换到其他产品还是继续浏览,浏览器的埋点都是不可知的
在客户端的统计中,则可以通过系统埋点获取,因为客户端在系统层面的信息权限高于网页的信息权限
客户端的劣势是追踪浏览来源,难以追踪APP打开之前的行为,而网页端则比较容易
数据埋点的参数
通常可以认为内容在屏幕停留超过1秒则产生了曝光
数据埋点的评估
宏观数据质量
数据丢失率
可能是客户端手机数据SDK造成
可能数据仓库稳定性较差
也可能随着数据规模不断扩大,系统本身架构所限,数据稳定性变得越来越差
数据更新频率
实时更新
比如广告系统、推荐系统、搜索系统
次日更新
数据来源
维度
数据分析的核心方法
提升数据可信度
增加数据统计的流量基数
增加数据统计的时间
增加对照组进行A/B测试
趋势分析
在电商产品中,用户一般在完成三次购买后留存率增长放缓,因此如果有同样的运营资源,应尽可能投入用户的前几次购买中
重要概念
环比
本期统计数据和上期的比较
可以知道最近的变化趋势,但是有些季节性差异
同比
比如和去年同月份比较
定基比
每期的数据都和某个不变的时间点的数据进行比较
数据细分
分时
观察不同时间段数据是否有变化
分渠道
观察不同来源的流量或产品是否有变化
分用户
观察不同用户类型的数据是否有变化,比如新注册用户和老用户,高等级用户和低等级用户相比是否有差异
分地区
不同地区的数据是否有变化
数据对比
基本面对比
同维度对比
转化漏斗
用户路径越长,流失率越高
单一步骤用取巧方式提升的转化率,往往会在下一个步骤流失
集群分析
把相似数据进行归并分析,应用在数据粒度比较细的领域
比如在SEM中,通常把成千上万的搜索关键词分类为:品牌词、通用词、行业词、产品词、人群特征词等,研究不同类型的词在转化率和ROI方面的数据表现
数据预估
极限分析法
在理想假设下分析产品方案效果的上下限
类比法
利用类似的数据对未来进行估计
仿真系统
综合分析
归因
相关性
揭示事件之间的联系,通过一个事件发生能预测另一个事件的发生
比如夏天冰淇淋销量增加和中暑事故的增加
因果性
通过改变一个事件来影响另一个事件的结果
数据分析报告
构成
项目背景
项目进度
综述整体进程以及目前的情况,什么时候发起项目,参与人员有多少,项目重要的里程碑是什么,可以采用时间轴展示
名词解释
数据获取方法
数据概览
数据拆分
结论汇总
后续改进
致谢
附件
3.机器学习
分类
监督学习
有明确的目标变量
对正确的结果有着明确的数据标注
大部分广发应用的机器学习算法都是监督学习,比如搜索和推荐,训练数据中的数据标注就是用户对于搜索结果的点击及后续指标
非监督学习
没有明确的目标变量
又称归纳性学习
机器学习系统构成
数据
出发点
判断一个问题能否用机器学习解决,就是能否收集足量的相关数据
算法模型
模型评估
系统评估
构建一些数据体系,每次模型调整后都产出对应的数据结果,并且让这些数据作为参数调优的依据
人工评估
往往产出定性结论
数据:训练集、测试集
在训练集中进行模型训练,在测试集中验证这些参数的有效性
计算结果
这些计算结果最终会在用户的使用中得到真正的数据验证
线上数据也会成为后续机器学习模型迭代的原始数据
机器学习的优势
准确度高
自动更新
机器学习算法的更新意味着数据更加符合最新的趋势变化,而商业策略和统计规则的更新则很难有这样的效果
规模化
及时反馈
机器学习的挑战
成本高,也需要大量的数据处理和筛选工作
很难定义系统可理解的优化目标
新场景下,对于算法创新有非常高的要求
提高非从业者对算法的接受度
特征工程:算法的基石
特征工程是通过一系列的工程手段,最大限度地从原始数据中提取特征,用于模型的输入。简单说,特征工程就是处理数据,让数据更符合模型的要求。
数据和特征决定了机器学习的上限,在找到数据和特征上花费时间,效果会好于花费时间在模型优化上
数据提取
基础特征
比如在线时长、来访次数、频率、来访周期、消费金额等
统计特征
对基础数据进一步用统计方法处理后得到的特征
比如客单价
将基础数据转化为统计特征的方法:均值、方差、标准差、最大值、最小值等
复合特征
基于人工经验规则提取的特征
高级特征
只有算法才能提取
数据预处理
异常值处理
异常值出现的原因
系统误差
系统收集数据时候产生的误差,是脏数据
真实数据的异常值
虽然数据是真实的,但是因为这个数据的存在,会对模型产生非常大的扰动
通过数学方法来调整数据的变化范围,防止极值对计算的影响
比较暴力的做法是设定最大值
柔性做法:比如用有界函数进行处理
归一化
将有量纲的表达式变换成无量纲的表达式,成为标量
互联网数据长尾分布的案例比较多,使用对数函数转换是一种非常有效的方法
信息量调权
如果一个信息出现的概率越大则信息量越大,如果一个信息越常见则信息量越小
热门降权
时间衰减降权
让过去的信息权重更低,最近的信息权重更高
置信度提权
数据量越大,信息越靠谱
离散值处理
典型处理办法是将一个离散的特征值转化为多个离散的特征
缺失值处理
首先判断数据缺失这个事件本身是不是有意义
考虑是否要对缺失数据进行插补
特征选择
每个特征加入机器学习模型时,不仅带来信息量,也带来信息噪声
1)利用简单统计方法进行特征评估
2)利用回归模型和统计检验方法对数据进行筛选和归因
3)直接用机器学习算法进行筛选
特征降维
让高维度的特征变成更少维度的特征
模型输入特征越多,要求模型的数据量就越大。当模型训练数据量不够,且模型待优化的参数过多时,往往造成数据过拟合。(在算法模型中,准确率非常高,但在线上测试中,算法的准确率非常低)
1)人工降维
2)算法降维
高维数据矩阵
其他特征工程
自然语言处理
语义识别
图像识别
常用机器学习算法
线性回归
逻辑回归
C4.5决策树算法
利用历史数据构造对未来实例进行自动化决策,核心是确定每个属性在决策树中的位置
K-means算法
朴素贝叶斯
应用:文本分类,比如垃圾邮件过滤
人工神经网络
非线性学习算法
模型融合
机器学习算法的应用
预测问题
搜索、推荐、广告系统;交通问题
分类问题
垃圾邮件过滤
自动聚类
分类问题是已经确定了分类后的类别,自动聚类在一开始不知道类别
自动聚类是典型的无监督学习
信息分发
搜索、推荐、信息流、广告
智能营销
线下服务
决策系统
自动驾驶技术、智能语音助手
算法替代了一部分人的工作
智能客服
但目前大部分智能客服只是有产品知识库的对话机器人,无法解决用户的问题,反而让用户情绪变得更烦躁,容易流失
让智能客服辅助人工客服
在很多领域无法替代人,而应该和人合作
4.用户运营
用户价值衡量
客户关系管理指标
客户管理管理强调促进与用户的沟通、了解用户的需求、提升产品的用户价值
F for Frequency
用户最近一段时间内交易的次数
线上行为指标
内容领域
点击率、阅读深度、阅读完成率
社区产品
关注率、粉丝数、好友数
电商领域
成交量、成交额、UV价值等
净推荐值(NPS)
计量客户将会向其他人推荐某个企业或服务可能性的指数
推荐者、被动者、贬损者
推荐者与贬损者在用户总数中所在百分比之差即净推荐值
不良数据和良性数据
NPS数据
NPS分数
NPS分数下的用户主观意见
NPS分数对应的用户相关信息
用户筛选
人工规则
难以规模化
往往是一次性的,且牵扯大量的运营人员精力,难以长久化和批量化执行
RFM模型
利用分类衡量用户价值的方法,通过客户的近期购买行为、购买的总体频率和消费金额三个维度来衡量该客户的价值
R for Recency
用户最近一次交易时间的间隔
当用户最近一次消费和现在越近,一般代表这个用户越容易被运营活动影响
M for Monetary
用户在最近一段时间内交易的金额
通过将RFM中每个维度切分为几个层级,可以对用户进行分类
算法筛选
用一批用户去筛选另一批用户
1)从历史数据中找到有效用户
2)将有效用户的特征和候选的用户池中的用户特征进行匹配,分析有效用户和候选用户的相似度
3)利用算法分析的结果,在候选用户池中筛选最高效的用户
只适合当次运营活动
用用户标签去筛选用户
1)从历史数据发掘足够可靠的标签
2)根据活动的目标筛选出合理的标签
3)通过标签去筛选用户
需要对用户标签进行定期的维护,在后续的活动中可继续使用
用户留存
常用的留存率指标:次日留存率、三日留存率、七日留存率、十五日留存率、三十日留存率
创造用户价值
了解用户的关键性途径:听用户的负面反馈、听用户的建议、看用户的使用习惯
定期举办运营活动
运营活动的关键要素:目标用户、预期效果、活动预算、活动主题、活动流程、触达用户的方式
自动化留存
用户召回
我们知道流失的用户的很多信息,可以作为召回的策略依据,同时流失的老用户对产品本身比较了解,也不需要做过多的使用引导。因此用户召回的难度和成本,会比新用户获取更低
存疑
常规召回
用户在产品中留下的核心资产是什么
产品还有哪些用户的联系方式
通常由算法完成
对于社交产品,核心资产是用户的关系链
对于交易类的产品,用户的核心资产是用户的交易记录、收藏、关注、评论
广告召回
产品在不断围绕产品核心价值进行迭代
产品在其他平台的广告要尽量围绕产品的核心业务展开
如果在之前的行为数据记录中,记录了设备号,可以对于老用户二次安装座相应的流量承接
一般产品会默认90天或120天没有使用产品的用户就是流失用户,流失超过这个时间之后重新下载使用产品,就应该享受新用户类似的优惠,否则可能引起老用户的抵触,造成留存率的下降
营销召回
用户变现
广告
用户的使用时长、广告的渗透率、广告的点击率
会员
电商
游戏
用户流失风险模型
用户行为数据
浏览商品量、加入购物车量、提交订单量、最近7天访问天数、最近30天访问天数、最近7天平均访问时长、最近30天平均访问时长、最近一次购买距现在天数、最近一次来访距现在天数、最近一次客服进线距现在天数、最近一次订单评分距现在天数
订单信息
订单类型分布、订单金额总额、订单优惠占比、商品一级分类分布、订单评价打分分布、有客服进线订单比例
用户信息
历史消费金额、退货量、投诉量、历史订单量、注册时间和用户等级
优化效果比较指标
消息点击率、消息带来的直接购买、7日留存数据、30日留存数据
是主要针对消息发送时机构建的模型
5.用户中心
KANO模型将需求分为五类
基本型需求
用户认为产品必须有的属性或功能
主要来自客户投诉
期望型需求
用户内心希望被满足的需求,当此类需求等到满足或表现良好时,用户满意度会显著增加,得不到满足时,用户的不满也会显著增加
例子:希望内容推送越来越精准、有更多高质量的低价商品
来自大范围的用户调研或日常的用户反馈,如用户提出的产品改进意见
应该定期收集并分类整理用户反馈
兴奋型需求
用户意料之外的需求
来自核心用户的意见及产品内部的论证
无差异型需求
不管提供与否,不会导致用户满意或不满意
反向型需求
引起用户强烈不满的需求
例子:社区产品的改版弱化用户高频使用的功能,而强调商业化的新功能
需要预估需求能覆盖的用户比例
会员体系的用户核心价值
会员权益
尊贵感
会员体系设计
会员积分设计
为了方便用户理解,会让用户的某个行为和积分用1:1或者1:10的方式挂钩
在互联网产品中,比较推荐的比例是1积分等于1分钱
积分系统因为涉及用户切身利益,所以需要一开始就规划好,一旦修改,可能会引起大规模的用户不满
会员等级设计
一般以四级或五级设计比较合适,过多的等级反而会让用户难以理解
降级规则
等级周期设计需要考虑用户消费频次或获取积分的难度,可以考虑三个月或者六个月
付费会员设计
增值服务变现
印象笔记
让用户绑定平台
电商和外卖
提高现金流
知识付费和健身卡
让用户更容易转化的核心原则是给用户的多个选项中包含几个参考选项,让用户在简单的对比和计算之后选择我们真正希望用户选择的选项
客服系统
数据指标
指导客服系统本身迭代和优化的数据
接起率、不同客服的服务满意度
核心指标:CPO
每订单进线
对于内容产品,CPO可定义为每个订阅带来的投诉
对于社区类产品,CPO可定义为每次广告点击带来的进线
最好知道行业竞品的CPO
交易类产品的CPO在5%-20%是正常水平
如果没有限制客服入口,CPO只有2%,则不需要优化
用户中心的基本职能
满足用户的基本使用需求,防止明显的体验问题
在满足用户需求的基础上,通过有效引导和商业化设计,提升用户复购频率
做更多创新功能,通过提供更高的用户价值来提升用户的使用产品频次和用户留存率
6、搜索系统
词库
搜索质量的优化很多都集中在词和词库的优化上
倒序索引
正序索引是以文档为主体查找关键词,而倒序索引是以关键词为主体查找文档
分词算法
机械分词法
基于字符串匹配的分词方法
系统把需要分词的句子从左到右扫描一遍,遇到词库里有的词就进行分词,遇到词库里没有的内容就分割成单字词
统计语言模型
基于语料库
对于一个搜索文本,可能有多种分词可能,找到出现概率最大的分词方法并采用
这两种都是基于词库的分词方法
停用词
一个词出现在文档内容里的概率越大,这个词的信息量就越小
因为信息量太小应该被忽略,也就是停用词
停用词多为语气助词、介词等
同义词和自动纠错
对用户输入的内容进行语义转化
中文的繁简体、英文的大小写
对内容进行筛选
新闻搜索
标题、导语是强相关内容,全文是弱相关内容、评论可能是完全不相关内容
和标题、导语匹配可以完全召回,和正文匹配可以按一定条件召回,比如相关的词需要出现一定次数或新闻阅读量达到一定值
对结果进行排序
不仅考虑文本相关度,也要考虑这个内容的业务表现,基于业务规则的权重,以及用户行为权重
文本权重
基于TF-IDF(Term Frequency-Inverse Document Frequency),即衡量词与文档的相关性
TF表示词频
一个词出现在文档中的频率
IDF表示逆文档频率
一个词出现在其他文档中的频率
一个词的TF值越大,代表这个词和文档相关性越高
业务权重
新闻
越及时、来源越权威、评论越多,权重越大
电商
用户评分、商品销量、是否应季
很多时候,业务权重比文本权重更重要
用户行为权重
用户点击率高的内容应该在后续排序中获得更高的权重
浏览、点击、阅读时长、收藏数、回复数、点击之后的购买、加入购物车量
个性化因子
不同用户搜索同一个搜索词,可以展示不同的内容
基本用户信息
客观指标
基本指标
搜索次数、搜索用户数、搜索所带来的销售额或者阅读量
搜索转化率
搜索转化率有可能大于1,因为一次搜索可能产生多次点击转化
搜索跳出率
发生搜索却没有转化的行为次数和搜索次数的比值
可以衡量搜索异常的比例
主要有三种原因:1)站内没有用户搜索相关的内容;2)站内有相关内容但搜索系统没有召回;3)虽有内容且搜索系统已召回了结果,但结果排序不合理,用户在头部找不到
跳出率非常高的词往往是搜索量非常低的异常值,不具有优化意义
搜索损失销售额
当某关键词每次搜索产生的销售额大于全站每次搜索产生的销售额时,代表这些词已经达标;否则需要被改善
7、推荐系统
人工指标
召回率
所有应该搜到的内容里面真正被搜出来的相关内容的比例
准确率
一般而言提升准确率会损失召回率
DCG
假设一个搜索结果中每个内容对用户的价值可以衡量,位置越靠前权重越大。把每个位置加权求和,就是DCG值
IDCG
理想状况下的DCG,搜索结果按最理想的状态,即用户价值打分从高到低排序
NDCG
一个介于0和1之间的值,越接近1,越接近最理想的排序结果
基于内容的推荐
一般不会作为推荐系统的主要算法
非常依赖完整的内容知识库,需要在数据库中维护好正确的内容属性,也需要把内容做好分类。
成本低且高效
协同过滤
分析系统已有数据,并结合用户表现的数据,预测该指定用户对此内容的喜好程度
通过全站数据计算得到的,而不只取决于内容属性
两种常见做法
基于内容的协同过滤
适合内容比较有限但用户数特别多的情况,比如电商公司
基于用户的协同过滤
适合比较容易根据用户的兴趣点发现热点内容,比如新闻门户
基于标签的推荐
适合本身就有成型标签系统的公司使用
隐语义模型(LFM:Latent Factor Model)
是典型的机器学习模型
充分挖掘了用户行为数据中的有效信息,在计算过程中几乎不会丢失信息,同时随着特征维度的扩展,推荐效果也会明显提升
缺点:没有明确的含义、无法实时计算
推荐算法的评估
离线评估
测试集和训练集
分割测试集和训练集的常用方法
用户切分
从原始数据中取一部分用户的数据进行模型训练,取另一部分用户的数据进行模型测试
前提是模型需要训练的参数和用户信息无关
隐语义模型不适合
时间切分
取一段时间的全体用户数据进行训练,取训练数据时间段的后一段时间的数据进行模型检测
几乎适合全部模型
模型一般每天更新,时间切分后,测试集不能使用最新的训练结果
调整算法阶段,尤其多种算法混用时,时间切分更有效
检测指标
准确率
推荐结果中有效数据的比例
召回率
有效数据被推荐系统召回的比例
覆盖率
推荐结果覆盖候选集的比例
覆盖率越高,代表算法挖掘了越多的长尾商品
除核心指标外需考虑的问题
增长是否持续
核心指标的增长是否是净增长
差的推荐可能会侵蚀其他位置的销售额,好的推荐则可以推升整体的数据表现
用户参与度是否下降
如果系统推荐的结果比较单一且用户比较感兴趣的商品排在了前面,很有可能导致用户参与度下降
用户平均每日使用时长
用户留存指标是否下降
策略细节
数据清洗
可调整性
流行度降权
时间衰减
让最近的行为更大程度地影响推荐结果
及时反馈
推荐系统一般分为长期模型和短期模型
内容打散
8、信息流系统
信息加工策略
时间轴
重力算法
二级传播
亲密度算法
个性化算法
适合拥有海量内容的产品
信息流更新机制
固定排序
整体更新排序
不仅新增内容也更新排序,适合用户来访频次不高且内容更新速度慢的产品
上下更新排序
规则类信息流设计
时间衰减法
对数衰减法
能很好地处理符合长尾分布的数据
长尾分布的特点是少数部分拥有大量数值,尾部数值下降非常缓慢,但不会直接下降为零
评价排序法
概率加权法
本质是用随机的方式从宏观控制流量分发的比例
个性化信息流设计
信息流的场景的特点
内容量大
内容时效性高
用户的兴趣点转变快
内容至少要在1000的曝光量下,数据才有一定置信度
商业模式的三个节点
用户画像
用户时间
用户数据
信息流的挑战
系统无法收集用户的情绪
点击不一定代表感兴趣
系统无法获得负样本数据
负样本数据可以有效提升算法准确率
缺少独创内容
用户数据的缺乏
算法无法做到长远优化
信息茧房
首页排序需考虑的四个核心因素
发布时间
内容和用户的匹配度
内容在站内的热度
是否编辑推荐
9、线下交易匹配系统
线下交易的特点
资源排他性
内容没有边际成本,服务有边际成本
人和内容是一对多关系,人和服务是一对一关系
时空不匹配
系统公平性
系统开放性
服务敏感性
时空价值模型
线下匹配系统模型
用户到达服务点
信息检索和交易匹配逻辑与线上交易匹配系统基本一致
区别是在召回和排序时要考虑用地理信息筛选和调权
服务送达用户
提前安排和调度服务
时空价值模型
和实物商品不同,服务永远会有一定的服务范围,受时空的限制
为了评估某个时间某个地点服务价值
时空理想划分
时间是连续值,空间也是连续变化的, 需求却只是有限个点
常用的空间划分方法:用正六边形划分
时空聚类方法
更贴合实际
如果一个区域内的需求比较统一,意味着这个区域有很强的一致性,需要将这些区域划分在一个是时空域里
仿真模型构建
成熟的仿真系统可以快速将大量的参数调整到最优值
时空价值
时空需求预估
趋势
移动平均
下一个阶段的需求值等于前一段时间的需求平均值
指数平滑
历史数据也对当前的需求量预估产生影响,但是时间越远,权重越低
Holt-Winters法
周期性
在外卖预测中,可以将周期性变为两类:一类是工作日、一类是非工作日
挖掘不同时空域之间的关联性可以提高每个时空域预测的准确性
基于转移概率的时空价值预估
通过对一段时间内的订单数据进行追踪,可以知道不同时空域内的转移概率和期望收益,也就计算出了时空域的时空价值
缺点:要求数据量大、实现成本比较高
基于邻域的时空价值预估
服务匹配方法
匹配度的构建
计算用户需求和服务者之间的相关度
二分图匹配
线下交易运营
用户侧运营
调节平峰时间供需关系
价格干预
定向拉新、促活、召回
服务侧激励
动态调价
核心是计算调价的倍率
倍率主要对于某个空间未来一小段时间的供需关系的预估
基于过去一段时间这个时空域的供需关系对接下来这段时间的供需关系进行预估
通过当前的供需关系预估因突发事件对供需关系锁造成的冲击
预期可视化
消除不确定性
高价值用户保护
线下交易的挑战
押金模式的困境
社会和政策的影响
供需时空分布不均
无法兼顾效率和业务目标
数据挖掘和算法创新
收藏
0 条评论
下一页