登录免费注册

首页  思维导图  详情

大数据技术全栈总结

2021-11-02 15:37:22   5  举报





AI智能生成

大数据技术全栈总结

技术体系

大数据

作者其他创作

大纲/内容

底层技术

JVM

多线程与高并发

网络通信IO

算法

设计模式

数据采集技术体系

离线数据采集技术

Sqoop

架构及使用

Sqoop二次源码开发

DataX

架构及使用

插件使用

Kettle

架构及使用

组件

转换、job执行、定时任务

实时数据采集技术

Flume

source

channal

sink

Maxwell

文件配置

实时采集数据原理

canal

实时采集数据原理

配置

HA

NiFi

NiFi webui

NiFi processors

NiFi Connection Manager

数据中间件技术体系

zookeeper-分布式协调系统

分布式协调系统

分布式锁实现

服务注册与发现

Redis - 内存数据库

数据类型

CAP

优化

Kafka-消息队列

发布订阅模型

生产者与消费者

topic

partition

数据一致

API

Pulsar-消息队列

... ....

ELK Stack

Elaticsearch

Logstash

Kibana

数据存储技术体系

HDFS-分布式文件系统

架构

文件上传下载流程

参数设置

HBase -分布式数据库

架构

角色

语句

索引

Hive - 分布式数据仓库

架构

语句

优化

数据湖技术

Hudi

... ...

Iceberg

... ...

deltalack

... ...

数据处理技术体系

MapReduce-分布式计算框架

MapReduce 架构设计

Shuffle

数据读写流程

参数

Spark - 分布式计算框架

SparkCore

核心RDD

Transfromation类算子

Action算子

持久化算子

任务运行模式

任务提交方式

资源分配模式

源码

Shuffle

内存管理

广播变量

累加器

SparkSql

Dataset

DataFrame

RDD

环境对象

SparkConf

SparkSession

HiveContext

SQLContext

SQL 执行逻辑

源码

SparkSQL 优化

SparkSQL UDF/UDAF

SparkSQL 函数

SparkStreaming

DStream

算子

与Kafka整合

StructStreaming

.. ....

Flink - 实时计算框架

Flink 基础

Dataset

DataStream

Flink 架构角色

Source

Transformation

Sink

Flink 高级

Flink 函数

reduce

apply

aggraget

process

侧输出流

CEP

状态管理

checkpoint

savepoint

Flink时间与窗口

watermark

watermark迟到数据处理

window

window种类

FlinkSQL

Table

SQL

环境对象区别

Flink内存管理

Flink网络优化

FlinkSQL优化

Flink源码

... ...

OLAP数据分析技术体系

OLAP - Kylin

架构

预计算

表类型

构建cube

对接实时数据

OLAP-Clickhouse

并行化执行

分布式列式存储

向量化执行

数据压缩

数据库引擎

表引擎

MergeTree

语法

与其他框架整合

OLAP-Impala

架构

角色

参照Hive

OLAP-kudu

架构设计

存储模型

Kudu table

kudu api

与impala整合支持SQL

OLAP-Phoenix

二级索引

语法

全局、本地索引

JDBC

OLAP-Druid

... ...

OLAP-Presto

... ...

OLAP-Doris

... ...

架构设计方法论

离线数仓体系

关系型数据库

E-R实体关系模型

数据仓库发展过程

建模方式

维度建模

数据模型

数据仓库分层每层作用

离线数仓这里指的就是传统离线数据架构

数仓分层设计规范

技术选型

实时数仓体系

架构演变过程

传统离线架构设计

Lambda架构设计

Kappa架构设计

混合架构设计

实时数仓发展方向

互联大厂案例

数据治理

数据质量管理

主数据管理

数据标准管理

集成平台

数据交换

数据生命周期管理

元数据管理

数据安全

Atlas

Ranger

Kerberos

... ...

数据可视化

Superset

Hue

DataV

Sugar

帆软BI

TCV

PowerBi

集群管理及任务调度相关技术体系

Yarn - 资源调度框架

源码

ApplicationMaster

ResourceManager

NodeManager

oozie - 任务流调度

Azkaban

job配置

任务流调度

参数配置

Airflow

... ...

Cloudera Manager + CDH

Ambari + HDP

... ...

数据挖掘技术体系

python

线性回归

贝叶斯分类算法

KNN分类算法

KMeans聚类算法

TF-IDF

逻辑回归算法

随机森林

决策树

 收藏

立即使用

计算机组成

 收藏

立即使用

数据湖一体

 收藏

立即使用

操作系统概念

 收藏

立即使用

计算机网络

职业：大数据开发













评论

0 条评论

下一页

为你推荐

查看更多



大数据技术架构

LAMP技术栈学习路线

大数据技术栈

大数据技术架构

大数据技术栈

大数据技术栈

大数据平台_数据治理平台_大数据

大数据平台_数据治理平台_大数据

大数据安全技术栈树状图

系统技术栈架构图



图形选择

思维导图

主题

补充说明

AI生成





修改AI描述

去编辑

重新生成

提示 

关闭后当前内容将不会保存，是否继续？

取消

确定