大数据技术全栈总结
2021-11-02 15:37:22 5 举报
AI智能生成
大数据技术全栈总结
作者其他创作
大纲/内容
底层技术
JVM
多线程与高并发
网络通信IO
算法
设计模式
数据采集技术体系
离线数据采集技术
Sqoop
架构及使用
Sqoop二次源码开发
DataX
架构及使用
插件使用
Kettle
架构及使用
组件
转换、job执行、定时任务
实时数据采集技术
Flume
source
channal
sink
Maxwell
文件配置
实时采集数据原理
canal
实时采集数据原理
配置
HA
NiFi
NiFi webui
NiFi processors
NiFi Connection Manager
数据中间件技术体系
zookeeper-分布式协调系统
分布式协调系统
分布式锁实现
服务注册与发现
Redis - 内存数据库
数据类型
CAP
优化
Kafka-消息队列
发布订阅模型
生产者与消费者
topic
partition
数据一致
API
Pulsar-消息队列
... ....
ELK Stack
Elaticsearch
Logstash
Kibana
数据存储技术体系
HDFS-分布式文件系统
架构
文件上传下载流程
参数设置
HBase -分布式数据库
架构
角色
语句
索引
Hive - 分布式数据仓库
架构
语句
优化
数据湖技术
Hudi
... ...
Iceberg
... ...
deltalack
... ...
数据处理技术体系
MapReduce-分布式计算框架
MapReduce 架构设计
Shuffle
数据读写流程
参数
Spark - 分布式计算框架
SparkCore
核心RDD
Transfromation类算子
Action算子
持久化算子
任务运行模式
任务提交方式
资源分配模式
源码
Shuffle
内存管理
广播变量
累加器
SparkSql
Dataset
DataFrame
RDD
环境对象
SparkConf
SparkSession
HiveContext
SQLContext
SQL 执行逻辑
源码
SparkSQL 优化
SparkSQL UDF/UDAF
SparkSQL 函数
SparkStreaming
DStream
算子
与Kafka整合
StructStreaming
.. ....
Flink - 实时计算框架
Flink 基础
Dataset
DataStream
Flink 架构角色
Source
Transformation
Sink
Flink 高级
Flink 函数
reduce
apply
aggraget
process
侧输出流
CEP
状态管理
checkpoint
savepoint
Flink时间与窗口
watermark
watermark迟到数据处理
window
window种类
FlinkSQL
Table
SQL
环境对象区别
Flink内存管理
Flink网络优化
FlinkSQL优化
Flink源码
... ...
OLAP数据分析技术体系
OLAP - Kylin
架构
预计算
表类型
构建cube
对接实时数据
OLAP-Clickhouse
并行化执行
分布式列式存储
向量化执行
数据压缩
数据库引擎
表引擎
MergeTree
语法
与其他框架整合
OLAP-Impala
架构
角色
参照Hive
OLAP-kudu
架构设计
存储模型
Kudu table
kudu api
与impala整合支持SQL
OLAP-Phoenix
二级索引
语法
全局、本地索引
JDBC
OLAP-Druid
... ...
OLAP-Presto
... ...
OLAP-Doris
... ...
架构设计方法论
离线数仓体系
关系型数据库
E-R实体关系模型
数据仓库发展过程
建模方式
维度建模
数据模型
数据仓库分层每层作用
离线数仓这里指的就是传统离线数据架构
数仓分层设计规范
技术选型
实时数仓体系
架构演变过程
传统离线架构设计
Lambda架构设计
Kappa架构设计
混合架构设计
实时数仓发展方向
互联大厂案例
数据治理
数据质量管理
主数据管理
数据标准管理
集成平台
数据交换
数据生命周期管理
元数据管理
数据安全
Atlas
Ranger
Kerberos
... ...
数据可视化
Superset
Hue
DataV
Sugar
帆软BI
TCV
PowerBi
集群管理及任务调度相关技术体系
Yarn - 资源调度框架
源码
ApplicationMaster
ResourceManager
NodeManager
oozie - 任务流调度
Azkaban
job配置
任务流调度
参数配置
Airflow
... ...
Cloudera Manager + CDH
Ambari + HDP
... ...
数据挖掘技术体系
python
线性回归
贝叶斯分类算法
KNN分类算法
KMeans聚类算法
TF-IDF
逻辑回归算法
随机森林
决策树
0 条评论
下一页
为你推荐
查看更多