数据大图
2021-08-11 13:40:27 1 举报
AI智能生成
离线和实时大数据开发实战
作者其他创作
大纲/内容
数据流程
数据产生
来源
业务系统
WEB系统
手机APP
外部系统
人工整理
特征
结构化数据
半结构化数据
非结构化数据
埋点
根据需求针对性地埋点
数据采集和传输
时效性
实时的数据采集和传输工具
关键基础设施
数据采集传输工具和系统已是大数据时代的关键基础设施
数据存储和处理
做什么
清洗
关联
规范化
建模
怎么做
时效性
离线处理
近线处理
实时处理
融合
离线的批处理
实时的流处理
数据应用
看数据
业务日报、周报、月报
运营指标、报表
分析师数据分析报告
即席分析
数据+算法
Google超级搜索框
淘宝的“千人千面”个性化推荐系统
新闻聚合推荐App今日头条
数据技术
数据采集
Sqoop
开源的离线数据传输工具
Flume
一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统
其他开源产品
Scribe
Kafka
一个基于分布式的消息发布–订阅系统,特点是快速、可扩展且持久
消息中间件开源产品
RabbitMQ
ActiveMQ
ZeroMQ
数据处理
MapReduce
分布式计算模型
map函数
reduce函数
Hive
Hive SQL
Spark
通用并行框架
Spark SQL
流计算框架Spark Streaming
Storm
实时数据处理框架
Flink
一个同时面向分布式实时流处理和批量数据处理的开源计算平台
Beam
数据处理的编程范式和接口定义
数据存储
HDFS
一个分布式文件系统
HBase
一种构建在HDFS之上的分布式、面向列族的存储系统
数据使用
Drill
一个开源实时大数据分布式查询引擎
R语言
一种开源的数据分析解决方案
TensorFlow
基于数据流图的处理框架
数据从业者
数据平台开发、运维工程师
数据开发、运维工程师
数据分析工程师
数据分析工程师也是数据开发工程师最为紧密的合作伙伴之一
算法工程师
业务人员
人人都是数据分析师
自助式数据分析工具
0 条评论
下一页