数据产品知识框架
2022-02-24 09:39:22 6 举报
AI智能生成
数据采集|数据清洗|数据汇聚/交换|数据存储|数据计算|数据挖掘统计|数据分析&运营|数据可视化|数据产品设计|数据治理/管理|常见数据业务
作者其他创作
大纲/内容
分析背景-目的-明细指标解释-数据获取来源-数据概览-数据拆分-结论汇总-后续改进-附件
分析框架
数据分析方法论
Excel
PowerBI/QuickBI
Python/R
数据分析工具
增长黑客
流量运营
用户运营
产品运营
内容运营
数据运营方法论
7、数据分析&运营
把一些统计性、结论性数据通过可视化框架表现
熟悉掌握各类图表的含义与用法
WebGL、Ant-VD3、three.js、MapBox
调研阶段:背景与目的、业务目标、业务范围、业务需求和功能需求
了解当前数据状况、质量、满足主题的原始数据
数据开发:离线、实时、算法
数据调研-数据开发-数据服务-可视化呈现
8、数据可视化
指数型
统计型
生活服务类
To C产品
自给自足、服务内部
企业自建
对外提供服务、商业化变现
数据看板
数据时效
数据准确
BI产品的关键
商业化数据产品
9、数据产品设计
提升质量、构建标准、相应需求、保护隐私和安全、理解数据解决问题的办法、实现数据管理流程确保透明、实现数据可持续运营、数据资产增值
6个目标-DCMM数据管理能力成熟度评估模型
标准、透明、认责与问责、平衡(代价与收益)、变更、持续改
6个原则
DAMA
数据治理的理论体系
质量管理到质量与服务并重
人工智能大幅提升数据治理效率
以元数据为核心的分布式数据治理
数据治理的3个发展趋势
数据治理
数据标准管理
数据模型管理
元数据管理
主数据管理
数据质量管理
数据安全管理
数据价值管理
数据共享管理
可恢复数据
不可恢复数据
数据生命周期管理
标签管理
数据资产门户
数据管理
10、数据治理/管理
数字化管理
热力、漏斗、留存等用户行为分析
数据智能分析
数据挖掘应用
业务预测
业务监测预警
推荐、搜索
风控、反欺诈
精准营销
计算广告
业务服务
数据管理/数据治理
11、常见数据业务
无埋点(全埋点)
代码埋点
可视化埋点
客户端SDK埋点
服务端SDK
HTTP中access_log
服务端SDK埋点
线上行为采集
硬件采集:Wi-Fi、摄像头、传感器、图像视频
线下行为采集
网络爬虫-在遵守相关协议的情况下,不断爬取互联网上的信息,对内容进行处理后提供相应的检索服务
Google、百度
互联网数据采集
1、数据采集
结构化数据:规则、完整、能够通过二维表逻辑来体现的数据,严格遵循数据格式与长度规范,常见的有数据库、Excel等
半结构化数据:规则、完整、遵循数据格式与长度规范但无法通过二维表表现,如JSON、XML等
非结构化数据:结构不规则、不完整、不方便使用二维逻辑表现,需要经过复杂的扩及处理才能提取,如办公文档、图片、图像、视频
数据组织形式
清洗原则:完整性、唯一性、合法性、权威性、一致性
常见操作:删除多列、更改数据类型、将分类变量转换为数字变量、检查缺失数据、删除列中的字符串、删除列中的空格、用字符串连接两列(带条件)、转换时间戳(从字符串到日期格式)
2、数据清洗
关系型数据库:Oracle、MySQL、SQLserver、Greenplum等
NoSQL储存:Hbase、Redis、Elasticsearch、Casssndra、MongoDB、Neo4J
网络及MQ:Kafka、HTTP
文件系统:HDFS、FTP、OSS、CSV、TXT、Excel
大数据相关:Hive、Impala、kuduMaxCompute、ADB、LiberA、ELK
数据源管理
场景:时效低、吞吐量大、大规模迁移
原理:将不同数据源的交换抽象为从源头数据源读取数据的读取插件,以及向目标写如数据的写入插件
读取插件:数据采集模块,负责采集数据源的数据,将数据发送给数据交换中心模块
写入插件:数据写入模块,持续从数据交换和心模块取数,写入目的端
数据交换核心模块:连接读取和写入插件,作为两者的数据传输通道,并在处理缓冲、流控、并发、数据转换等核心技术问题,可进行场景化的定制,如:字段截取、替换、编码转换等操作
实现方式
理论上支持任意数据类型,非结构化数据可通过快粘插件等方式交换,其场景是以文件或者数据块的方式进行交换
前置稽核:源数据同步开始前进行数据质量规则校验,根据配置规则的阻塞,告警策略控制数据同步是否进行
数据转换:将各类非标转数据转换成标准数据格式,转换后的数据推送到大数据平台指定的位置或库表
跨集群数据同步:采用插件化的设计思路,数据同步模块支持不同集群间的数据同步,例如:A-B,只需要开发A的Reader和B的Writer,便可新建数据同步作业
表全量同步-每次读取表中全量数据并且写入
库全量同步-将库中所有表进行数据同步,要求源端和目的端的表名称、结构相同,允许目标表不存在,不存在时自动创建新表
全量同步
新增-在目的端创建新分区或者直接追加写数
覆盖&更新-在配置时,选择唯一主键,根据唯一键对比同步中的数据和目的端数据,结合增量策略来判断是覆盖还是更新
增量同步
技术亮点
离线数据交换
主要负责把数据库、日志、爬虫等数据实时介入Kafaka、Hive、Ocracle等储存中
数据订阅ClientSever-数据的订阅和读取,任务实例启停控制
数据消费ConsumerSever-数据消费主要包括任务状态控制、数据解析、数据过滤、数据转换、数据写入等功能,通过TCP通信方式和数据订阅方式定型数据读取和传输,经过任务配置的过滤、转换等功能写入到目的端数据源中
核心服务
实时数据交换
3、数据汇聚/交换
数据规模
数据生产方式,会存在生产端没有储存数据端情况
数据应用方式
选型思考原则
在线&离线
主要处理大量用户下的大量食物,一般为高可在用在线系统,以小的事物以及小的查询为主
评判标准:每秒执行的事物以及查询的数量、Select语句
典型系统:电子商务、银行、证券
100MB-GB
高并发、短事物
OLTP-Transaction-联机事务处理-用于日常存储
DSS决策支持系统、数据仓库,常用于报表分析,可对事务性和实时性要求低
多维数据库、多维分析、面向主题、历史多维集成统一、周期性刷新
复杂的查询分析决策
100GB-TB
OLAP-Analytical-联机分析处理-用于日常分析
OLTP&OLAP
HDFS-高度容错系统,适用于批量处理能够提供高吞吐量的数据访问
分布式文件系统
Amazon Dynamo-储存简单的半机构化数据、键值系统
分布式键值系统
分布式-内部众多小的处理单元
支持超大规模数据存储,强大的横向扩展能力
键值数据库、列祖数据库、文档数据库、图形数据库
HBase、MongoDB
NoSQL数据库
共享基础架构,以服务的形式提供数据库功能
云数据库
存储技术
4、数据存储
批量数据的高延时处理场景,吞吐量大、延时高,适合人机交互
离线数仓加工、大规模数据清洗和挖掘
MR、Hive、Spark
批计算
实时数据、秒级RT、监控告警、网络分析等
Flink、Spark、Streaming Storm
流计算
数据结果的在线查询、条件过滤、筛选、数据检索、过滤
对响应延时要求高的-缓存型储存数据计算Redis、Tair
对响应延时啊哟求正常的,Hbase、MySQL
画像服务-根据富相标识提供具体的查询服务,通过Redis可以提供低延迟、高并发的查询能力
在线查询
ROLAP-关系型数据库为核心,关系型结构进行多维数据的表示和存储,结合星型模式和雪花模式实现
MOLAP-基于多维数据组织实现,多维数据组织为核心,形成立方块多结构,通过对立方块进行各类处理
常见的实现方式
群体对比分析场景、A/B测试
交互数据分析
常见的场景
即席分析
5、数据计算
从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程
银行预测客户逾期
新闻领域预测新闻所属类别
医学领域预测病人是否患病
GBDT、而分类、线性支持向量机、K临近、决策树分类、多层感知机分类、朴素贝叶斯、LightGBM、随时森林、逻辑回归
分类-监督学习领域核心问题,用于推测输入数据的类别
股价、销量、房价、营业额预测
GBDT回归、随机森林吗、线性回归、LightGBM回归
回归-监督学习领域重要问题,预测输入输出变量之间的关系
将数据分簇,簇内样本较为相似,簇与簇之间样本差距较大
电商用于发现兴趣相似的用户,经过预处理和特征工程
kmeans、高斯混合
聚类-无监督学习领域研究较多的问题
主流框架:Tensorflow、MXNet、Caffe、XGBoost、LightGBM
深度学习
文本特征处理,模型构建实现文本分类、关键词抽取、摘要生成
PLDA、TF-IDF、Word2Vec、Doc2Vec、词频统计、去停用词、分词处理、关键词抽取
文本分析
用于解决包含网状关系的业务场景
金融风控、社群发现、最短路径
最大连通子图、标签传播分类、标签传播聚类、Modularity、树深度
网络分析
数据处理、特征工程、机器学习、深度学习、文本处理、图像处理、视频处理、人脸识别、OCR识别、车牌识别、知识图谱构建与推理
工具类
6、数据挖掘统计
数据产品知识框架
0 条评论
回复 删除
下一页