大数据离线项目需求分析
2023-03-27 15:40:39 0 举报
AI智能生成
对大数据项目所有的需求指标进行总结,仅限于电商相关内容,可以套用等
作者其他创作
大纲/内容
用户留存/流失分析
用户活跃
首先给出“活跃”行为定义,如登录一次、访问时长超过十分钟、消费一次等等,之后用户每次做出活跃行为,即记录为:活跃一次
用户留存
用户从指定事件开始,经历一段时间以后仍然有活跃行为,则记为一次留存。最常见的是新用户留存
用户流失
人为定义一个时间点为流失节点,比如用户12个月未登录之类。达到节点的,即为流失用户。
注意
流失和用户活跃、用户留存不同,用户流失不是个客观事实,而是个主观认定。理论上只要企业不主动销户,你可以认为用户永远没有流失。当然我们知道这是自欺欺人,所以一般会给定一个具体的流失标准。
系统数据流程设计
生产背景
营销分析断层
市场营销成本高居不下,投放拉新的效果追踪出现断层,无法追踪各渠道实际转化率,难以准确分析ROI
产品迭代无法量化
缺少实时的用户行为分析能力,使得产品功能改版的效果无法量化衡量,核心流程优化点更多靠拍脑袋,bug问题的定位后知后觉造成长时间的损失
用户运营不精准
“千人一面”的全量用户营销,投入产出难以把控,不精准的粗犷方式难以真正提升存量用户的长期活跃度
全局运营不精准
有运营的BI系统,但运营指标监控不及时,未形成核心的指标预警机制,决策滞后。
技术架构
开发目标
开发一个综合性的数据采集平台、数据分析平台、可视化展示平台以及数据治理平台
技术架构
以HDFS作为最底层存储
以Hive作为数仓基础设施
以Spark作为核心运算引擎
以Flume、Datax、Azkaban(任务调度)、Atlas(元数据管理)、Griffin(数据质量监测系统)等作为外围粘合辅助系统
以Kylin/Clickhouse(联机数据分析)分析引擎
以Hive作为数仓基础设施
以Spark作为核心运算引擎
以Flume、Datax、Azkaban(任务调度)、Atlas(元数据管理)、Griffin(数据质量监测系统)等作为外围粘合辅助系统
以Kylin/Clickhouse(联机数据分析)分析引擎
需求分析
行为域基础(流量)分析
分析主题概览
整体概况:从产品整体的使用情况出发,对产品的整体使用情况有基础了解
用户获取:从获客渠道和版本的方向出发,根据不同的渠道、不同的版本生成一些可以了解渠道优劣的指标。可以清晰的观察每个渠道的流量、转化情况。
活跃与留存:从用户的访问和粘性出发,可以观察产品在用户访问、回访等方面的趋势变化,清楚地了解用户对产品的粘性和沉浸程度。
事件转化:根据选择的事件和属性,生成该事件的发生次数、人数、分布等数据指标,可以了解整体的用户转化以及收益相关的数据情况。
用户特征:根据地理位置、性别、操作系统等一些基础属性,将用户进行分组,方便了解用户的分布占比情况。
用户获取:从获客渠道和版本的方向出发,根据不同的渠道、不同的版本生成一些可以了解渠道优劣的指标。可以清晰的观察每个渠道的流量、转化情况。
活跃与留存:从用户的访问和粘性出发,可以观察产品在用户访问、回访等方面的趋势变化,清楚地了解用户对产品的粘性和沉浸程度。
事件转化:根据选择的事件和属性,生成该事件的发生次数、人数、分布等数据指标,可以了解整体的用户转化以及收益相关的数据情况。
用户特征:根据地理位置、性别、操作系统等一些基础属性,将用户进行分组,方便了解用户的分布占比情况。
整体流量概况
累计用户量:产品上线至今的累计用户量
每日新增用户量
每日的全部访问人数、次数
每日的全部访问的人数次数/时长/深度
新老用户访问占比
每日新老用户的分布情况
新用户/全部用户的七日留存:起始和后续事件都为用户进行页面访问
各页面的访问次数分布:基于pageview事件中的页面标题属性进行分组
访问终端(app/pc web/微信小程序/H5)分布:按照访问的操作系统分组
每日新增用户量
每日的全部访问人数、次数
每日的全部访问的人数次数/时长/深度
新老用户访问占比
每日新老用户的分布情况
新用户/全部用户的七日留存:起始和后续事件都为用户进行页面访问
各页面的访问次数分布:基于pageview事件中的页面标题属性进行分组
访问终端(app/pc web/微信小程序/H5)分布:按照访问的操作系统分组
访问渠道分析
新增用户量:全部新用户数量,包括自然流量和渠道流量
渠道新增用户量:仅计算渠道流量新增用户数
各渠道新用户人均访问时长
异常流量:App异常流量,定义为打开5秒内即进行关闭操作的访问行为
渠道新增用户量:仅计算渠道流量新增用户数
各渠道新用户人均访问时长
异常流量:App异常流量,定义为打开5秒内即进行关闭操作的访问行为
用户分布分析
用户分布分为按地区(省、市、区等);按性别;按系统;按注册时间;按浏览器等
App版本分析
版本访问流量
人均访问时长
各版本留存:各版本的用户7日留存
人均访问时长
各版本留存:各版本的用户7日留存
活跃度分析
访问用户数
新老用户访问占比
新老用户人均使用时长
新老用户启动/访问次数
每日/每周启动时段
用户每日访问产品的时段分布
用户每周访问产品的星期分布
新老用户访问占比
新老用户人均使用时长
新老用户启动/访问次数
每日/每周启动时段
用户每日访问产品的时段分布
用户每周访问产品的星期分布
事件转化分析
新老用户事件发生次数/人数/人均次数
事件次数的分布
新老用户收益事件发生的次数/人数/人均次数
新老用户收益事件
事件次数的分布
新老用户收益事件发生的次数/人数/人均次数
新老用户收益事件
行为域进阶分析
转化漏斗分析
漏斗模型主要用于分析一个多步骤过程中每一步的转化与流失情况。通过电商平台用户购买流程举例。
事件留存分析
留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为后的用户中,有多少人会进行后续行为。
这是衡量产品对用户价值高低的重要指标
应用场景:1.验证用户是否会在某段时间内按照预期完成某个行为
2.新手引导页面的优化
3.某个功能修改后的期望
这是衡量产品对用户价值高低的重要指标
应用场景:1.验证用户是否会在某段时间内按照预期完成某个行为
2.新手引导页面的优化
3.某个功能修改后的期望
行为分布分析
分布分析不但可以告诉你用户有多依赖你的产品,还可以告诉你某个事件指标的用户分布情况。比如,
查看订单金额在100元以下、100元至200元以上三个区间的用户分布情况。
应用场景:1.策略调整前后,产品被使用次数变化
2.提高用户复购率
3.提升核心用户量
查看订单金额在100元以下、100元至200元以上三个区间的用户分布情况。
应用场景:1.策略调整前后,产品被使用次数变化
2.提高用户复购率
3.提升核心用户量
行为归因分析
业务上需要分析某个广告位、推广位对目标事件的转化贡献时,可以使用归因分析模型进行分析。在归因分析模型中,
广告位的点击、推广位的点击被称为【待归因事件】,支付订单等目标类事件被称为【目标转化事件】
广告位的点击、推广位的点击被称为【待归因事件】,支付订单等目标类事件被称为【目标转化事件】
行为路径分析
用户路径分析主要用于分析用户在使用产品时的路径分布情况。例如,在访问了某个电商产品首页的用户后,有多大比例的用户进行了搜索,
有多大比例的用户访问了分类页,有多大比例的用户直接访问的商品详情页。
有多大比例的用户访问了分类页,有多大比例的用户直接访问的商品详情页。
行为间隔分析
产品,运营,市场等人员的日常工作都需要观察某某业务的转化情况。如何衡量转化,除了用漏斗看转化率,还需要看转化时长的分布情况,
间隔分析即是解决这类问题和需求的。通过计算用户行为序列中两个事件的时间间隔,得到业务转化环节的转化时长分布。
应用场景:
复杂注册流程的整个过程花费的时长分布
新用户登录到第一次下单的间隔分布
投资理财类产品分析新用户完成绑卡到完成首次投资的时间间隔分布。
间隔分析即是解决这类问题和需求的。通过计算用户行为序列中两个事件的时间间隔,得到业务转化环节的转化时长分布。
应用场景:
复杂注册流程的整个过程花费的时长分布
新用户登录到第一次下单的间隔分布
投资理财类产品分析新用户完成绑卡到完成首次投资的时间间隔分布。
其它高阶分析
对于使用现有的UI功能暂时无法满足的高级数据需求,我们提供了更加自由的自定义查询功能。该功能支持使用标准SQL来对所有数据进行自由查询,
同时也包含对查询结果的简单可视化。
同时也包含对查询结果的简单可视化。
用户画像分析
用户画像的定义
用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,
而标签是通过对用户信息分析而来的高度精炼的特征标识。
而标签是通过对用户信息分析而来的高度精炼的特征标识。
用户画像的作用
1、精准营销:根据历史用户特征,分析产品的潜在用户和用户的潜在需求,针对特定群体,利用短信、邮件等方式进行营销。
2、用户统计:根据用户的属性、行为特征对用户进行分类后,统计不同特征下的用户数量、分布;分析不同用户画像群体的分布特征。
3、数据挖掘:以用户画像为基础构建推荐系统、搜索引擎、广告投放系统,提升服务精准度。
4、服务产品:对产品进行用户画像。对产品进行受众分析,更透彻地理解用户使用产品地心理动机和行为习惯,完善产品运营,提升服务质量。
5、行业报告&用户研究:通过用户画像分析可以了解行业动态,比如人群消费习惯、消费偏好分析、不同地域品类消费差异分析。
2、用户统计:根据用户的属性、行为特征对用户进行分类后,统计不同特征下的用户数量、分布;分析不同用户画像群体的分布特征。
3、数据挖掘:以用户画像为基础构建推荐系统、搜索引擎、广告投放系统,提升服务精准度。
4、服务产品:对产品进行用户画像。对产品进行受众分析,更透彻地理解用户使用产品地心理动机和行为习惯,完善产品运营,提升服务质量。
5、行业报告&用户研究:通过用户画像分析可以了解行业动态,比如人群消费习惯、消费偏好分析、不同地域品类消费差异分析。
项目框架
技术选型
数据采集传输:Flume、Kafka、Sqoop、Datax、Logstash
数据存储:Mysql、HDFS、HBase、Redis、MongoDB
数据计算:Hive、Tez、Spark、Flink、Strom
数据查询:Presto、Kylin、Impala、Druid
数据可视化:Echarts、Superset、QuickBI、DataV
任务调度:Azkaban、Oozie、DolphinScheduler
集群监控:Zabbix、Ganglia、Prometheus
元数据管理:Atlas
数据存储:Mysql、HDFS、HBase、Redis、MongoDB
数据计算:Hive、Tez、Spark、Flink、Strom
数据查询:Presto、Kylin、Impala、Druid
数据可视化:Echarts、Superset、QuickBI、DataV
任务调度:Azkaban、Oozie、DolphinScheduler
集群监控:Zabbix、Ganglia、Prometheus
元数据管理:Atlas
服务器选型
1.物理机:
以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,戴尔品牌单台报价4w出头。一般物理机寿命为5年左右。
2.云主机:
云主机;以阿里云为例,差不多相同配置。很多运维工作都由阿里云完成,运维相对较轻松。
3.企业选择:
金融有钱公司和阿里没有直接冲突的公司选择阿里云。中小公司、为了融资上市,选择阿里云,拉到融资后买物理机。有长期打算,资金比较充足,选择物理机。
以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,戴尔品牌单台报价4w出头。一般物理机寿命为5年左右。
2.云主机:
云主机;以阿里云为例,差不多相同配置。很多运维工作都由阿里云完成,运维相对较轻松。
3.企业选择:
金融有钱公司和阿里没有直接冲突的公司选择阿里云。中小公司、为了融资上市,选择阿里云,拉到融资后买物理机。有长期打算,资金比较充足,选择物理机。
集群资源规划设计
流程设计
数据生成
主要数据类别:
用户行为日志数据需要在业务系统的前端(或后端)中做埋点
业务数据已经在业务系统的数据库中
历史数据
其它第三方数据
用户行为日志数据需要在业务系统的前端(或后端)中做埋点
业务数据已经在业务系统的数据库中
历史数据
其它第三方数据
数据采集汇聚
行为域数据
1.日志前端埋点,生成日志数据文件
2.日志服务器存储为日志文件
3.Flume采集日志文件
4.日志预处理后写入HDFS
5.落Hive数仓ODS层
2.日志服务器存储为日志文件
3.Flume采集日志文件
4.日志预处理后写入HDFS
5.落Hive数仓ODS层
业务域数据
1.业务系统增删改数据库,形成业务数据
2.Sqoop/Datax/Kettle数据抽取
3.落Hive数仓ODS层
4.增量合并处理
2.Sqoop/Datax/Kettle数据抽取
3.落Hive数仓ODS层
4.增量合并处理
数据仓库
核心技术选型:Hive
计算引擎:MapReduce+SparkSQL
存储系统:底层存储HDFS,产出存储(hbase,elasticsearch,clickhouse,kylin,mysql)
计算引擎:MapReduce+SparkSQL
存储系统:底层存储HDFS,产出存储(hbase,elasticsearch,clickhouse,kylin,mysql)
OLAP分析平台
1.用户明细数据(用户画像标签明细,用户行为序列明细)入库HBase(或者Elasticsearch),然后开发数据访问接口服务给上层应用
2.固定报表查询:需要查询的固定报表数据,入库Mysql/HBase(日新、日活、PV、留存、核心业务转化、关键路径转化、关键事件报表,GMV日报周报月报等)
3.规范模型自助多维分析:利用Kylin来提供多维分析服务
4.用户行为自助分析服务:要分析的数据,就放在HDFS上,由Presto提供查询支撑/或clickhouse
2.固定报表查询:需要查询的固定报表数据,入库Mysql/HBase(日新、日活、PV、留存、核心业务转化、关键路径转化、关键事件报表,GMV日报周报月报等)
3.规范模型自助多维分析:利用Kylin来提供多维分析服务
4.用户行为自助分析服务:要分析的数据,就放在HDFS上,由Presto提供查询支撑/或clickhouse
0 条评论
下一页