大数据技术全栈总结
2021-11-02 15:37:22 5 举报
AI智能生成
大数据技术全栈总结
作者其他创作
大纲/内容
JVM
多线程与高并发
网络通信IO
算法
设计模式
底层技术
架构及使用
Sqoop二次源码开发
Sqoop
插件使用
DataX
组件
转换、job执行、定时任务
Kettle
离线数据采集技术
source
channal
sink
Flume
文件配置
实时采集数据原理
Maxwell
配置
HA
canal
NiFi webui
NiFi processors
NiFi Connection Manager
NiFi
实时数据采集技术
数据采集技术体系
分布式协调系统
分布式锁实现
服务注册与发现
zookeeper-分布式协调系统
数据类型
CAP
优化
Redis - 内存数据库
发布订阅模型
生产者与消费者
topic
partition
数据一致
API
Kafka-消息队列
... ....
Pulsar-消息队列
Elaticsearch
Logstash
Kibana
ELK Stack
数据中间件技术体系
架构
文件上传下载流程
参数设置
HDFS-分布式文件系统
角色
语句
索引
HBase -分布式数据库
Hive - 分布式数据仓库
... ...
Hudi
Iceberg
deltalack
数据湖技术
数据存储技术体系
MapReduce 架构设计
Shuffle
数据读写流程
参数
MapReduce-分布式计算框架
核心RDD
Transfromation类算子
Action算子
持久化算子
任务运行模式
任务提交方式
资源分配模式
源码
内存管理
广播变量
累加器
SparkCore
Dataset
DataFrame
RDD
SparkConf
SparkSession
HiveContext
SQLContext
环境对象
SQL 执行逻辑
SparkSQL 优化
SparkSQL UDF/UDAF
SparkSQL 函数
SparkSql
DStream
算子
与Kafka整合
SparkStreaming
.. ....
StructStreaming
Spark - 分布式计算框架
DataStream
Flink 架构角色
Source
Transformation
Sink
Flink 基础
reduce
apply
aggraget
process
Flink 函数
侧输出流
CEP
状态管理
checkpoint
savepoint
Flink 高级
watermark
watermark迟到数据处理
window
window种类
Flink时间与窗口
Table
SQL
环境对象区别
Flink内存管理
Flink网络优化
FlinkSQL优化
FlinkSQL
Flink源码
Flink - 实时计算框架
数据处理技术体系
预计算
表类型
构建cube
对接实时数据
OLAP - Kylin
并行化执行
分布式列式存储
向量化执行
数据压缩
数据库引擎
MergeTree
表引擎
语法
与其他框架整合
OLAP-Clickhouse
参照Hive
OLAP-Impala
架构设计
存储模型
Kudu table
kudu api
与impala整合支持SQL
OLAP-kudu
二级索引
全局、本地索引
JDBC
OLAP-Phoenix
OLAP-Druid
OLAP-Presto
OLAP-Doris
OLAP数据分析技术体系
关系型数据库
E-R实体关系模型
数据仓库发展过程
建模方式
维度建模
数据模型
数据仓库分层每层作用
离线数仓这里指的就是传统离线数据架构
数仓分层设计规范
技术选型
离线数仓体系
架构演变过程
传统离线架构设计
Lambda架构设计
Kappa架构设计
混合架构设计
实时数仓发展方向
互联大厂案例
实时数仓体系
数据质量管理
主数据管理
数据标准管理
集成平台
数据交换
数据生命周期管理
元数据管理
数据安全
Atlas
Ranger
Kerberos
数据治理
Superset
Hue
DataV
Sugar
帆软BI
TCV
PowerBi
数据可视化
架构设计方法论
ApplicationMaster
ResourceManager
NodeManager
Yarn - 资源调度框架
oozie - 任务流调度
job配置
任务流调度
参数配置
Azkaban
Airflow
Cloudera Manager + CDH
Ambari + HDP
集群管理及任务调度相关技术体系
python
线性回归
贝叶斯分类算法
KNN分类算法
KMeans聚类算法
TF-IDF
逻辑回归算法
随机森林
决策树
数据挖掘技术体系
大数据技术全栈总结
0 条评论
回复 删除
下一页