数据采集与汇聚的方法
2022-12-07 13:17:53 0 举报
数据中台是企业数字化转型的战略选择,是数字化时代对企业的组织重构、流程再造与技术升级。本文档对数据中台进行概述,脑图的每一个主题都会链接到一个具体的文档中,讲述了数据中台涵盖的关键内容,为后续从技术、架构、设计、运营和管理5个维度介绍数据中台奠定基础。
作者其他创作
大纲/内容
通过在系统服务器端部署相应的数据采集模块,将这部分数据作为行为数据进行处理和分析
线下行为数据主要通过一些硬件来采集,如摄像头、传感器等
线上行为采集
服务端埋点
将终端设备上用户的一部分操作,通过服务端配置的方式有选择性的记录并保存
主要用于大批量数据的周期性迁移,对时效性要求不高,一般采用分布式批量数据同步的方式
半结构化数据
数据采集与汇聚的方法
客户端埋点
可视化埋点
数据组织形式
实时数据
主要是面向低延时的数据应用场景,一般通过增量日志或者消息通知的方式来实现
离线数据
内部数据汇聚
爬虫,一种按照既定规则自动抓取互联网信息的程序或者脚本,常用来做网站的自动化测试和行为模拟
结构化数据
时效性和应用场景
非结构化数据
互联网数据采集
数据结构不规则或不完整,不方便用二维关系来表达,需要经过复杂的逻辑处理才能提取信息,如文档、音视频
将终端设备上用户的所有操作和内容都记录并保存下来,只需要对内嵌SDK做一些初始配置就可以实现收集全部行为的目的。
根据需求来定制每次的收集内容,需要对相应的终端模块进行升级
规则、完整,能够通过二维逻辑来表现的数据,严格遵循数据格式和长度规范
线下行为采集
全埋点
代码埋点
规则、完整,严格遵循数据格式和长度规范,但不能够使用二维关系来表达,JSON XML
0 条评论
回复 删除
下一页