离线和实时大数据开发实战
2020-03-18 09:35:38 0 举报
AI智能生成
离线和实时大数据开发实战
作者其他创作
大纲/内容
第二篇 离线数据开发:大数据开发的主战场
3 Hadoop原理实践
3.1 开启大数据时代的Hadoop
3.2 HDFS和MapReduce优缺点分析
3.2.1 HDFS
3.2.2 MapReduce
3.3 HDFS和MapReduce基本架构
3.4 MapReduce内部原理实践
3.4.1 MapReduce逻辑开发
3.4.2 MapReduce任务提交详解
3.4.3 MapReduce内部执行原理详解
3.5 本章小结
4 Hive原理实践
4.1 离线大数据处理的主要技术:Hive
4.1.1 Hive出现背景
4.1.2 Hive基本架构
4.2 Hive SQL
4.2.1 Hive关键概念
4.2.2 Hive数据库
4.2.3 Hive表DDL
4.2.4 Hive表DML
4.3 Hive SQL执行原理图解
4.3.1 select语句执行图解
4.3.2 group by语句执行图解
4.3.3 join语句执行图解
4.4 Hive函数
4.5 其他SQL on Hadoop技术
4.6 本章小结
5 Hive优化实践
5.1 离线数据处理的主要挑战:数据倾斜
5.2 Hive优化
5.3 join无关的优化
5.3.1 group by引起的倾斜优化
5.3.2 count distinct优化
5.4 大表join小表优化
5.5 大表join大表优化
5.5.1 问题场景
5.5.2 方案1:转化为mapjoin
5.5.3 方案2:join时用case when语句
5.5.4 方案3:倍数B表,再取模join
5.5.5 方案4:动态一分为二
5.6 本章小结
6 维度建模技术实践
6.1 大数据建模的主要技术:维度建模
6.1.1 维度建模关键概念
6.1.2 维度建模一般过程
6.2 维度表设计
6.2.1 维度变化
6.2.2 维度层次
6.2.3 维度一致性
6.2.4 维度整合和拆分
6.2.5 维度其他
6.3 深入事实表
6.3.1 事务事实表
6.3.2 快照事实表
6.3.3 累计快照事实表
6.3.4 无事实的事实表
6.3.5 汇总的事实表
6.4 大数据的维度建模实践
6.4.1 事实表
6.4.2 维度表
6.5 本章小结
7 Hadoop数据仓库开发实战
7.1 业务需求
7.2 Hadoop数据仓库架构设计
7.3 Hadoop数据仓库规范设计
7.3.1 命名规范
7.3.2 开发规范
7.3.3 流程规范
7.4 FutureRetailer数据仓库构建实践
7.4.1 商品维度表
7.4.2 销售事实表
7.5 数据平台新架构——数据湖
7.6 本章小结
第三篇 实时数据开发:大数据开发的未来
8 Storm流计算开发
8.1 流计算技术的鼻祖:Storm技术
8.1.1 Storm基本架构
8.1.2 Storm关键概念
8.1.3 Storm并发
8.1.4 Storm核心类和接口
8.2 Storm实时开发示例
8.2.1 语句生成spout
8.2.2 语句分割bolt
8.2.3 单词计数bolt
8.2.4 上报bolt
8.2.5 单词计数topology
8.2.6 单词计数并发配置
8.3 Storm高级原语Trident
8.3.1 Trident引入背景
8.3.2 Trident基本思路
8.3.3 Trident流操作
8.3.4 Trident的实时开发实例
8.4 Storm关键技术
8.4.1 spout的可靠性
8.4.2 bolt的可靠性
8.4.3 Storm反压机制
8.5 本章小结
9 Spark Streaming流计算开发
9.1 Spark生态和核心概念
9.1.1 Spark概览
9.1.2 Spark核心概念
9.1.3 Spark生态圈
9.2 Spark生态的流计算技术:Spark Streaming
9.2.1 Spark Streaming基本原理
9.2.2 Spark Streaming核心API
9.3 Spark Streaming的实时开发示例
9.4 Spark Streaming调优实践
9.5 Spark Streaming关键技术
9.5.1 Spark Streaming可靠性语义
9.5.2 Spark Streaming反压机制
9.6 本章小结
10 Flink流计算开发
10.1 流计算技术新贵:Flink
10.1.1 Flink技术栈
10.1.2 Flink关键概念和基本原理
10.2 Flink API
10.2.1 API概览
10.2.2 DataStream API
10.3 Flink实时开发示例
10.4 Flink关键技术详解
10.4.1 容错机制
10.4.2 水位线
10.4.3 窗口机制
10.4.4 撤回
10.4.5 反压机制
10.5 本章小结
11 Beam技术
11.1 意图一统流计算的Beam
11.1.1 Beam的产生背景
11.1.2 Beam技术
11.2 Beam技术核心:Beam Model
11.3 Beam SDK
11.3.1 关键概念
11.3.2 Beam SDK
11.4 Beam窗口详解
11.4.1 窗口基础
11.4.2 水位线与延迟数据
11.4.3 触发器
11.5 本章小结
12 Stream SQL实时开发实战
12.1 流计算SQL原理和架构
12.2 流计算SQL:未来主要的实时开发技术
12.3 Stream SQL
12.3.1 Stream SQL源表
12.3.2 Stream SQL结果表
12.3.3 Stream SQL维度表
12.3.4 Stream SQL临时表
12.3.5 Stream SQL DML
12.4 Stream SQL的实时开发实战
12.4.1 select操作
12.4.2 join操作
12.4.3 聚合操作
12.5 撤回机制
12.6 本章小结
为什么要写这本书
本书特色
读者对象
勘误和支持
特别致谢
第一篇 数据大图和数据平台大图
1 数据大图
1.1 数据流程
1.1.1 数据产生
1.1.2 数据采集和传输
1.1.3 数据存储处理
1.1.4 数据应用
1.2 数据技术
1.2.1 数据采集传输主要技术
1.2.2 数据处理主要技术
1.2.3 数据存储主要技术
1.2.4 数据应用主要技术
1.3 数据相关从业者和角色
1.3.1 数据平台开发、运维工程师
1.3.2 数据开发、运维工程师
1.3.3 数据分析工程师
1.3.4 算法工程师
1.3.5 业务人员
1.4 本章小结
2 数据平台大图
2.1 离线数据平台的架构、技术和设计
2.1.1 离线数据平台的整体架构
2.1.2 数据仓库技术
2.1.3 数据仓库建模技术
2.1.4 数据仓库逻辑架构设计
2.2 实时数据平台的架构、技术和设计
2.2.1 实时数据平台的整体架构
2.2.2 流计算技术
2.2.3 主要流计算开源框架
2.3 数据管理
2.3.1 数据探查
2.3.2 数据集成
2.3.3 数据质量
2.3.4 数据屏蔽
2.4 本章小结
0 条评论
下一页